大模型日报｜今日必读的 10 篇大模型论文

最新推荐文章于 2024-06-24 10:07:23 发布

学术头条

最新推荐文章于 2024-06-24 10:07:23 发布

阅读量1.4k

点赞数

分类专栏：每日大模型论文文章标签：人工智能 agi 深度学习机器学习语言模型

本文链接：https://blog.csdn.net/AMiner2006/article/details/139096398

版权

每日大模型论文专栏收录该内容

63 篇文章 63 订阅

订阅专栏

在这里插入图片描述

大家好，今日必读的大模型论文来啦！

1.大型语言模型的元认知能力：数学问题解决探索

元认知知识是指人类对自身思维和推理过程的直观认识。当今的大型语言模型（LLMs）显然拥有一些推理过程。来自这篇论文的证据表明，LLMs 还拥有元认知知识，包括在给定任务中说出应用技能和程序的能力。

来自蒙特利尔大学、Google DeepMind、普林斯顿大学和剑桥大学的研究团队，主要从数学推理的角度探讨了这一问题，开发了一个 prompt 引导的交互程序，让强大的 LLM 为数学问题分配合理的技能标签，然后让它进行语义聚类，从而获得更粗略的技能标签系列。这些粗略的技能标签在人类看来是可以解释的。

为了验证这些技能标签是否有意义，是否与 LLM 的推理过程相关，他们进行了以下实验：1）要求 GPT-4 为数学数据集 GSM8K 和 MATH 中的训练题分配技能标签；2）在使用 LLM 解决测试题时，向它提供完整的技能标签列表，并要求它识别所需的技能，然后，他们会随机向它展示与该技能标签相关的示范解题。

这种方法提高了 GSM8k 和 MATH 上几种 LLM（包括代码辅助模型）的准确性。尽管本文将其应用于数学问题，但所介绍的方法与领域无关。

论文链接：
https://arxiv.org/abs/2405.12205

2.Octo：一个开源的通用机器人政策

在各种机器人数据集上预先训练的大型策略有可能改变机器人的学习方式：这种通用型机器人策略无需从头开始训练新策略，只需少量域内数据即可进行微调，具有广泛的通用性。然而，为了广泛适用于各种机器人学习场景、环境和任务，这些策略需要处理不同的传感器和行动空间，适应各种常用的机器人平台，并根据新领域随时高效地进行微调。

在这项工作中，来自 UC 伯克利、斯坦福、卡内基梅隆大学和 Google DeepMind 的研究团队及其合作者旨在为开发开源、广泛适用的机器人操纵通用策略奠定基础。作为第一步，他们提出了一种基于 transformer 的大型策略——Octo，这是在迄今为止最大的机器人操纵数据集 Open X-Embodiment 数据集中的 800k 个轨迹上训练出来的。它可以通过语言命令或目标图像进行指导，并可在标准消费级 GPU 上进行有效微调，从而适应具有新的感官输入和动作空间的机器人设置。

在跨越 9 个机器人平台的实验中，Octo 被证明是一种多功能策略初始化工具，可根据新的观察和行动空间进行有效微调。他们还对 Octo 模型的设计决策（从架构到训练数据）进行了详细分析，从而指导未来建立通用机器人模型的研究。

论文链接：
https://arxiv.org/abs/2405.12213
项目地址：
https://octo-models.github.io/

3.IBM 和 NASA 推出 INDUS：用于科学应用的高效语言模型

使用通用领域语料库训练的大型语言模型（LLM）在自然语言处理（NLP）任务中表现出了卓越的性能。然而，之前的研究表明，使用领域重点语料库训练的 LLM 在专业任务中表现更好。

受这一重要见解的启发，来自 IBM 和 NASA 的研究团队及其合作者开发了 INDUS，这是一套为地球科学、生物学、物理学、太阳物理学、行星科学和天体物理学领域量身定制的综合 LLM，并使用从不同数据源中提取的科学语料进行训练。

这套模型包括： 1）使用特定领域的词汇和语料库训练的编码器模型，用于处理自然语言理解任务；2）使用从多种来源提取的不同数据集训练的基于对比学习的通用文本嵌入模型，用于处理信息检索任务；3）使用知识提炼技术创建的这些模型的较小版本，用于处理有延迟或资源限制的应用。

为加速这些多学科领域的研究，他们还创建了三个新的科学基准数据集，即 CLIMATE-CHANGE-NER（实体识别）、NASA-QA（抽取式 QA）和 NASA-IR（红外）。该模型在这些新任务以及相关领域的现有基准任务上的表现，优于通用编码器（RoBERTa）和现有的特定领域编码器（SciBERT）。

论文链接：
https://arxiv.org/abs/2405.10725

4.Imp：适用于移动设备的高功能大型多模态模型

通过利用大型语言模型（LLM）的功能，最近的大型多模态模型（LMM）在开放世界多模态理解中显示出了显著的多功能性。然而，这些模型通常参数多、计算密集，因此阻碍了它们在资源有限的场景中的应用。

为此，人们相继提出了几种轻量级 LMM，从而最大限度地提高受限规模下的能力（如 3B）。尽管这些方法取得了令人鼓舞的成果，但它们大多只关注设计空间的一两个方面，而影响模型能力的关键设计选择尚未得到深入研究。

在这项工作中，来自杭州电子科技大学的研究团队从模型架构、训练策略和训练数据三个方面对轻量级 LMM 进行了系统研究。基于我们的研究结果，并推出了一个 2B-4B 规模的高能力 LMMs 系列——Imp。

值得注意的是，Imp-3B 模型稳定地超越了所有现有的类似规模的轻量级 LMM，甚至在 13B 规模上超越了最先进的 LMM。利用低位量化和分辨率降低技术，Imp 模型可以部署在高通 Snapdragon 8Gen3 移动芯片上，推理速度高达约 13 token/s。

论文链接：
https://arxiv.org/abs/2405.12107
项目地址：
https://imp-vl.github.io/

5.OpenRLHF：易用、可扩展、高性能的 RLHF 框架

随着大型语言模型（LLMs）通过 scaling laws 不断增长，基于人类反馈的强化学习（RLHF）因其出色的性能而备受关注。然而，与单个模型的预训练或微调不同，扩展 RLHF 来训练大型语言模型，对四种模型的协调提出了挑战。

来自 OpenLLMAI、字节跳动、网易、阿里的研究团队提出了是一个可实现 RLHF 高效扩展的开源框架——OpenRLHF。

现有的 RLHF 框架将四个模型放在同一个 GPU 上，与此不同，OpenRLHF 利用 Ray、vLLM 和 DeepSpeed 重新设计了超过 70B 参数的模型调度，提高了资源利用率并采用了多种训练方法。OpenRLHF 与 Hugging Face 无缝集成，提供了一个具有优化算法和启动脚本的开箱即用解决方案，确保了用户友好性。OpenRLHF 实现了 RLHF、DPO、剔除采样和其他配准技术。

论文链接：
https://arxiv.org/abs/2405.11143
项目地址：
https://github.com/OpenLLMAI/OpenRLHF

6.MoRA：面向参数高效微调的高阶更新

低阶适应（Low-rank）是一种针对大型语言模型的流行参数高效微调方法。

在这项工作中，来自北京航空航天大学和微软的研究团队，分析了 LoRA 中实现的低阶更新的影响。研究结果表明，低阶更新机制可能会限制 LLM 有效学习和记忆新知识的能力。

受此启发，他们提出了一种名为 MoRA 的新方法，其采用方形矩阵来实现高阶更新，同时保持相同数量的可训练参数。为了实现这一目标，他们引入了相应的非参数算子，以减少方阵的输入维度，增加输出维度。此外，这些算子确保了权重可以合并回 LLM，这使得该方法可以像 LoRA 一样部署。

他们在指令微调、数学推理、持续预训练、记忆和预训练五项任务中对该方法进行了全面评估。在内存密集型任务上，该方法优于 LoRA，而在其他任务上，也取得了相当的性能。

论文链接：
https://arxiv.org/abs/2405.12130

7.FIFO-Diffusion：无需训练即可从文本生成无限视频

来自首尔国立大学的研究团队提出了一种基于预训练扩散模型的新型推理技术——FIFO-Diffusion，用于文本条件视频生成，其无需训练即可生成无限长的视频。

这是通过迭代执行对角线去噪来实现的，在队列中同时处理一系列噪声水平不断增加的连续帧；在帧头去掉一个完全去噪的帧，同时在帧尾输入一个新的随机噪声帧。

然而，对角线去噪是一把双刃剑，因为靠近尾部的帧可以通过前向参考利用更干净的帧，但这种策略会导致训练和推理之间的差异。因此，他们引入了潜在分区来缩小训练与推理之间的差距，并通过前瞻性去噪来充分利用前向参照的优势。他们在现有的文本到视频生成基线上证明了所提出方法的良好效果和有效性。

论文链接：
https://arxiv.org/abs/2405.11473
项目地址：
https://jjihwan.github.io/projects/FIFO-Diffusion

8.EyeFound：眼科成像的多模态综合基础模型

人工智能（AI）在眼科领域至关重要，它可以解决诊断、分类和视觉问题解答（VQA）等任务。然而，该领域现有的人工智能模型通常需要大量标注，并且针对特定任务，从而限制了其临床实用性。

虽然最近的发展为眼科带来了基础模型，但由于需要为每种成像模式训练单独的权重，这些模型受到了限制，无法全面呈现多模式特征。这凸显了对能处理眼科各种任务和模式的多功能基础模型的需求。

为了弥补这一不足，来自香港理工大学的研究团队及其合作者推出了眼科图像多模态基础模型——EyeFound。与现有模型不同，EyeFound 可从无标记的多模态视网膜图像中学习可通用的表征，从而在多个应用中实现高效的模型适配。EyeFound 在 227 家医院的 278 万张图像上进行了训练，涉及 11 种眼科模式，有助于通用表征和多样化的多模态下游任务，甚至是检测具有挑战性的罕见疾病。

EyeFound 在诊断眼部疾病、预测系统性疾病事件和零样本多模态 VQA 方面的表现优于之前的 RETFound。

论文链接：
https://arxiv.org/abs/2405.11338

9.EnviroExam：大型语言模型环境科学知识基准测试

在环境科学领域，为大型语言模型（LLMs）提供可靠的评估指标以确保其有效性和准确性至关重要。

为评估环境科学领域大型语言模型的知识，来自哈尔滨工业大学的研究团队提出了一种综合评估方法——EnviroExam。EnviroExam 以国际一流大学的课程为基础，涵盖本科、硕士和博士课程，包括 42 门核心课程的 936 个问题。通过对 31 个开源大型语言模型进行 0-shot 和 5-shot 测试，EnviroExam 揭示了这些模型在环境科学领域的性能差异，并提供了详细的评估标准。

结果显示，61.3% 的模型通过了 5-shot 测试，而 48.39% 的模型通过了 0-shot 测试。通过引入变异系数这一指标，他们从多个角度评估了环境科学领域主流开源大型语言模型的性能，为该领域语言模型的选择和微调提供了有效的标准。未来的研究将涉及利用环境科学专业教科书构建更多特定领域的测试集，从而进一步提高评估的准确性和特异性。

论文链接：
https://arxiv.org/abs/2405.11265
项目地址：
https://enviroexam.enviroscientist.cn/

10.基于 LLM 的多智能体强化学习：当前和未来方向

近年来，大型语言模型（LLM）在各种任务中显示出了强大的能力，包括问题解答、算术解题和诗歌写作等。尽管有关 LLM 即智能体（LLM-as-an-agent）的研究表明，LLM 可以应用于强化学习（RL）并取得不错的效果，但将基于 LLM 的 RL 扩展到多智能体系统（MAS）并非易事，因为单个智能体的 RL 框架没有考虑智能体之间的协调和通信等方面。

为了激发对基于 LLM 的多智能体强化学习的更多研究，来自罗格斯大学研究团队调查了现有的基于 LLM 的单智能体和多智能体 RL 框架，并为未来研究提供了潜在的研究方向。他们尤其关注具有共同目标的多个智能体的合作任务以及它们之间的通信。

论文链接：
https://arxiv.org/abs/2405.11106