实时追踪科研动态丨微软，Meta，DeepMind等机构10.18精选新论文

AMiner学术搜索和科技情报挖掘

于 2023-10-18 17:41:51 发布

阅读量172

点赞数

文章标签：人工智能 ai 微软 meta deepmind llm 语言模型

本文链接：https://blog.csdn.net/AI_Conf/article/details/133911135

版权

作为科研人员，每天需要检索和浏览大量的学术文献，以获取最新的科技进展和研究成果。然而，传统的检索和阅读方式已经无法满足科研人的需求。

AMiner AI，一款集检索、阅读、知识问答于一体的文献知识工具。帮助你快提高检索、阅读论文效率，获取最新领域研究动态，让科研工作更加游刃有余。

在这里插入图片描述

如果想要对某篇论文进行深入对话，可以直接复制论文链接到浏览器上或者直达AMiner AI页面：https://www.aminer.cn/chat/g/explain

2023年10月18日精选新论文列表：

1.Can GPT models be Financial Analysts? An Evaluation of ChatGPT and GPT-4 on mock CFA Exams

这篇论文评估了大型语言模型（LLMs）在金融推理能力方面的表现，特别是 ChatGPT 和 GPT-4。作者利用特许金融分析师（CFA）计划的模拟考试题目，对这两种模型的金融分析能力进行了全面评估，考虑了零镜头（ZS）、思维链（CoT）和少镜头（FS）场景。作者深入分析了模型的性能和局限性，并估计了它们在 CFA 考试中通过的概率。最后，作者概述了提高 LLMs 在金融领域应用的可能策略和改进方法。希望这项工作为通过严谨评估来继续提高 LLMs 在金融推理能力方面的未来研究铺平道路。

https://www.aminer.cn/pub/652c9d07939a5f40825c0bdd/?f=cs

2.MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning

这篇论文介绍了 MiniGPT-v2，它是一个统一接口，可以用于各种视觉语言任务的学习，包括图像描述、视觉问答和视觉接地等。传统的语言模型在语言相关应用中表现出了卓越的能力，因此，作者希望通过构建一个统一的接口，用简单的多模态指令来完成许多视觉语言任务。为了实现这个目标，作者提出了 MiniGPT-v2，它可以通过使用独特的标识符来区分不同的任务，从而更好地处理各种视觉语言任务。实验结果显示，MiniGPT-v2 在许多视觉问答和视觉接地基准测试中，与其他视觉语言通用模型相比，表现出了强大的性能。

https://www.aminer.cn/pub/652dee70939a5f4082b43421/?f=cs

3.In-Context Pretraining: Language Modeling Beyond Document Boundaries

这篇论文介绍了"上下文预训练"（In-Context Pretraining）这一新方法，用于训练大型语言模型（LMs）。现有的预训练流程通过将随机短文档拼接在一起来创建输入上下文，但这些先前的文档无法为预测下一个文档提供信号。而"上下文预训练"则是将语言模型在相关文档序列上进行预训练，从而明确鼓励模型阅读和跨越文档边界进行推理。通过简单地改变文档排序，使每个上下文包含相关文档，并直接应用现有的预训练流程，我们可以实现"上下文预训练"。但是，文档排序问题具有挑战性，因为数据量达到数十亿，我们希望对每一份文档最大化上下文相似性而不重复任何数据。为了解决这个问题，我们引入了高效的近邻搜索和图遍历算法来寻找相关文档和构建一致的输入上下文。实验结果表明，"上下文预训练"能够简单且大规模地显著提高 LM 的性能，在需要更复杂上下文推理的任务中（包括上下文学习、阅读理解、对先前上下文的忠实度、长上下文推理和检索增强），都取得了明显的改进（+8%、+15%、+16%、+5%、+9%）。

https://www.aminer.cn/pub/652def0c939a5f4082b54103/?f=cs

4.Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model

这篇论文介绍了一种名为"奖励增强解码"（Reward-Augmented Decoding，RAD）的文本生成方法，该方法使用一个单向奖励模型来引导语言模型生成具有特定属性的文本。具体来说，RAD 在生成过程中使用奖励模型对生成的文本进行评分，并调整采样概率以偏向高奖励标记。通过使用单向奖励模型，RAD 可以缓存先前生成步骤的激活以减少计算开销。通过在生成非毒性文本和情感控制文本上的实验，我们证明了 RAD 在仅更改生成过程的方法中表现最佳，并与重新训练语言模型的最先进方法的表现相匹配。我们还验证了 RAD 在非常大的语言模型上仍然有效，同时计算开销最小。

https://www.aminer.cn/pub/652dee70939a5f4082b43450/?f=cs

5.Llemma: An Open Language Model For Mathematics

这篇论文介绍了一个名为 Llemma 的大型数学语言模型。该模型在 Proof-Pile-2 数据集上对 Code Llama 进行预训练，该数据集包括科学论文、包含数学的网页数据和数学代码。在 MATH 基准测试中，Llemma 在等参数基础上优于所有已知的开放基础模型，以及尚未发布的 Minerva 模型套件。此外，Llemma 无需进一步微调即可实现工具使用和正式定理证明。作者公开发布了所有相关资料，包括 70 亿和 340 亿参数模型、Proof-Pile-2 数据集以及复制实验的代码。

https://www.aminer.cn/pub/652def02939a5f4082b53043/?f=cs

6.Improving Large Language Model Fine-tuning for Solving Math Problems

这篇论文探讨了如何改进大型语言模型在解决数学问题上的微调。尽管大型语言模型（LLM）在许多自然语言任务上取得了成功，但在解决数学问题方面仍然面临巨大挑战。LLM 在解决数学问题的“一次性通过”和“N 次通过”表现之间存在很大差距，这表明 LLM 可能接近找到正确解决方案，因此作者探索了微调方法以解锁 LLM 的性能。作者使用具有挑战性的 MATH 数据集，研究了三种微调策略：（1）解决方案微调，即针对给定的数学问题微调以生成详细的解决方案；（2）解决方案聚类重排序，将 LLM 微调为解决方案验证/评估器，从生成的候选解决方案簇中选择一个；（3）多任务序列微调，将解决方案生成和评估任务有效地集成在一起，以提高 LLM 性能。在 PaLM 2 模型的一系列模型上，作者应用这些方法进行了充分的实证研究，发现：（1）用于微调的逐步解决方案的质量和技术可以显著影响模型性能；（2）尽管解决方案重排序和多数投票在单独使用时都能有效提高模型性能，但它们一起使用可以带来更好的性能提升；（3）与解决方案微调基线相比，将解决方案生成和评估任务序列分离的多任务微调可以提供更好的性能。在这些见解的指导下，作者设计了一个微调配方，在 MATH 数据集上使用微调的 PaLM 2-L 模型实现了约 58.8% 的准确率，比预训练的 PaLM 2-L 模型使用多数投票的少量样本表现提高了 11.2%。

https://www.aminer.cn/pub/652dee7a939a5f4082b44735/?f=cs

7.Video Language Planning

这篇论文探讨了如何利用大规模预训练生成模型在生成的视频和语言空间中实现复杂长时任务的可视化规划。为此，作者提出了视频语言规划（VLP）算法，该算法包括一棵搜索过程，其中 (i) 视觉语言模型被训练为策略和价值函数，(ii) 文本到视频模型被训练为动态模型。VLP 将长时任务指令和当前图像观察作为输入，输出一个长视频计划，提供详细的多种模态（视频和语言）规格，描述如何完成最终任务。随着计算预算的增加，VLP 能够合成不同机器人领域的长时视频计划：从多对象重新排列到多摄像头双臂灵巧操作。生成的视频计划可以通过目标条件策略翻译成实际机器人动作，该策略依赖于生成的视频的每个中间帧。实验表明，与之前的方法相比，VLP 在模拟和真实机器人上的长时任务成功率都有所提高（涉及 3 个硬件平台）。

https://www.aminer.cn/pub/652deefd939a5f4082b5284e/?f=cs

8.BitNet: Scaling 1-bit Transformers for Large Language Models

这篇论文介绍了 BitNet，一种可扩展且稳定的 1 位 Transformer 架构，专为大型语言模型设计。为了解决大型语言模型在部署方面面临的挑战以及高能耗带来的环境影响问题，作者引入了 BitNet。具体来说，作者引入了 BitLinear 作为 nn.Linear 层的替换，以便从零开始训练 1 位权重。在语言建模的实验结果表明，BitNet 在保持竞争力性能的同时，大大减少了内存占用和能源消耗，相较于最先进的 8 位量化方法和 FP16 Transformer 基线。此外，BitNet 呈现出与全精度 Transformer 类似的扩展规律，表明其在保持效率和性能优势的同时，有望有效地扩展到更大的语言模型。

https://www.aminer.cn/pub/652f3ff0939a5f4082e74d9f/?f=cs

9.4K4D: Real-Time 4D View Synthesis at 4K Resolution

这篇论文关注于在 4K 分辨率下实现动态 3D 场景的高保真实时视图合成。尽管最近的一些动态视图合成方法在渲染质量上表现出色，但它们在渲染高分辨率图像时的速度仍然受限。为解决这个问题，作者提出了 4K4D，一种支持硬件光栅化的 4D 点云表示，能够实现前所未有的渲染速度。该表示基于 4D 特征网格，使点自然规范化，并能被稳健地优化。此外，作者设计了一种新颖的混合外观模型，显著提高了渲染质量，同时保持了效率。此外，作者开发了一种可微分深度剥离算法，从 RGB 视频中有效地学习所提出的模型。实验结果表明，在使用 RTX 4090 GPU 时，该表示可以在 DNA-渲染数据集上以超过 400 FPS 的速度渲染 1080p 分辨率的图像，在 ENeRF-户外数据集上以 80 FPS 的速度渲染 4K 分辨率的图像，比以前的方法快 30 倍，同时实现了最先进的渲染质量。作者将发布代码以供可重复性研究。

https://www.aminer.cn/pub/652f3ff0939a5f4082e74d9a/?f=cs

10.Context-Aware Meta-Learning

这篇论文介绍了一种名为 Context-Aware Meta-Learning 的新算法。该算法旨在模拟大型语言模型的能力，即在推理过程中学习新概念而无需进行微调。与现有的视觉模型不同，这些模型在推理时检测新对象时表现不佳，或者需要对类似对象进行元训练和/或微调。该算法的关键思想是利用一个预先训练的特征提取器，并将元学习重新构建为在已知标签的数据点上进行序列建模，同时对未知标签的测试数据点进行建模。在 8 个元学习基准测试中，我们的方法在没有元训练或微调的情况下超过了或与最先进的算法 P>M>F 相匹配，该算法是在这些基准测试上进行元训练的。

https://www.aminer.cn/pub/652f3ff0939a5f4082e74bb5/?f=cs

11.EvalCrafter: Benchmarking and Evaluating Large Video Generation Models

论文探讨了近年来视觉和语言生成模型的快速发展，特别是在视频生成方面，已经有很多开源模型和公共可用服务可以生成高质量的视觉视频。然而，这些方法通常使用一些学术指标，如 FVD 或 IS 来评估性能。作者认为，由于这些模型通常在非常大的数据集上进行训练，具有多方面能力，因此很难从简单的指标来判断大型条件生成模型。因此，他们提出了一种新的框架和流程，以全面评估生成的视频的性能。为实现这一目标，他们首先通过分析实际提示列表，借助大型语言模型生成一个新的文本到视频生成的提示列表。然后，他们在精心设计的基准上评估最先进的视频生成模型，从视觉质量、内容质量、运动质量和文本字幕对齐等方面，使用约 18 个客观指标进行评估。为了获得模型的最终排行榜，他们还拟合了一系列系数，将客观指标与用户观点对齐。基于所提出的观点对齐方法，最终得分显示了比简单平均指标更高的相关性，表明了所提出的评估方法的效力。

https://www.aminer.cn/pub/652f3ff0939a5f4082e74d92/?f=cs

我们在AMiner网站首页添加了“每日精选新论文”专题，可以点击「订阅」和「加入知识库」，获取全部论文信息！

在这里插入图片描述