今日必读的7篇大模型论文

最新推荐文章于 2024-05-21 16:37:07 发布

学术头条

最新推荐文章于 2024-05-21 16:37:07 发布

阅读量757

点赞数 8

文章标签：人工智能机器学习语言模型深度学习 chatgpt

本文链接：https://blog.csdn.net/AMiner2006/article/details/136325852

版权

在这里插入图片描述

1.Google DeepMind：大模型能做多跳推理吗？

来自 Google DeepMind、伦敦大学学院、Google Research 和特拉维夫大学的研究团队探讨了大型语言模型（LLMs）是否能够对复杂的提示执行多跳推理，如“The mother of the singer of ‘Superstition’ is”。

研究团队寻找潜在推理路径的证据。第一跳，LLM 将“the singer of ‘Superstition’”这个桥梁实体（bridge entity）潜在地识别为 Stevie Wonder；第二跳，LLM 使用其关于“The mother of Stevie Wonder”的知识来完成提示。研究团队单独分析测试这两个跳转，并将它们的共同出现视为潜在多跳推理的标志。对于第一跳，将提示改为间接提及桥梁实体而不是其他实体，是否会增加 LLM 对桥梁实体的内部回忆。对于第二跳，这种回忆的增加是否会使 LLM 更好地利用它对桥梁实体的知识。

在某些关系类型的提示中，研究团队发现了潜在多跳推理的有力证据，80% 以上的提示都使用了推理路径。不过，推理途径的使用与具体上下文密切相关，因不同类型的提示而异。平均而言，第二跳和完整多跳遍历（multi-hop traversal）的证据相当有限，只有第一跳的证据相当可观。此外，随着模型规模的增大，第一跳推理有明显的扩展趋势，但第二跳没有。

论文链接：
https://arxiv.org/abs/2402.16837

2.英伟达 Nemotron-4 15B 技术报告

来自英伟达的研究团队提出了一个基于 8 万亿文本 tokens 训练的 150 亿参数大型多语言模型——Nemotron-4 15B。Nemotron-4 15B 在评估英语、多语种和编码任务时表现出了强劲的性能：在 7 个下游评估领域中的 4 个上，其性能超过了现有的所有同等规模的开放模型，并在其余领域取得了与领先开放模型相当的性能。

Nemotron-4 15B 在所有同等规模的模型中表现出最佳的多语言能力，甚至优于规模四倍以上的模型和那些专门用于多语言任务的模型。

论文链接：
https://arxiv.org/abs/2402.16819

3.清华团队开源框架RepoAgent：由大模型驱动，主动生成、维护和更新代码文档

生成模型在软件工程领域，尤其是代码生成和调试等任务中已显示出相当大的潜力。然而，它们在代码文档生成领域的应用仍未得到充分开发。

为了主动生成、维护和更新代码文档，来自清华大学、中国人民大学和西门子公司的研究团队提出了一个由大型语言模型驱动的开源框架——RepoAgent。实验表明，RepoAgent 在生成高质量的资源库级文档方面表现出色。

论文链接：
https://arxiv.org/abs/2402.16667
项目地址：
https://github.com/OpenBMB/RepoAgent

4.ChatMusician：使用大模型理解和生成音乐

来自 Multimodal Art Projection Research Community、Skywork 和香港科技大学的研究团队提出了一个集成了内在音乐能力的开源大型语言模型（LLMs）——ChatMusician。它基于与文本兼容的音乐表示法（ABC 记谱法）对 LLaMA2 进行持续的预训练和微调，并将音乐视为第二语言。

ChatMusician 可通过纯文本 tokenizer 理解和生成音乐，无需任何外部多模态神经网络或 tokenizer。赋予音乐能力并不会损害语言能力，甚至在 MMLU 评分上略有提高。ChatMusician 能够以文本、和弦、旋律、主题、音乐形式等为条件，创作出结构良好的完整音乐，超过了 GPT-4 基线。

研究团队制作了一个大学级音乐理解基准——MusicTheoryBench，在该基准上的零样本测试中，ChatMusician 以明显的优势超过了 LLaMA2 和 GPT-3.5。该项研究揭示了 LLMs 可以成为出色的音乐压缩器（compressor），但仍有大量领域有待攻克。

论文链接：
https://arxiv.org/abs/2402.16153
项目地址：
https://shanghaicannon.github.io/ChatMusician/

5.RoboCodeX：机器人行为合成的多模态代码生成

机器人行为合成，即理解多模态输入并为机器人生成精确物理控制，是具身人工智能（Embodied AI）的重要组成部分。尽管在应用多模态大型语言模型进行高级理解方面取得了成功，但要将这些概念理解转化为详细的机器人动作并在各种场景中实现泛化仍具挑战性。

来自香港大学和上海人工智能实验室的研究团队及其合作者提出了一个用于泛化的机器人行为合成的树状结构多模态代码生成框架——RoboCodeX。它将高级人类指令分解为多个以对象为中心的操作单元，包括如负担能力（affordance）和安全约束等物理偏好，并应用代码生成技术在各种机器人平台上实现泛化能力。

为了进一步提高将概念和感知理解映射到控制指令的能力，研究团队收集了一个专门的多模态推理数据集进行预训练，并引入了迭代自我更新方法进行监督微调。实验证明，RoboCodeX 在模拟器和真实机器人上在四种不同的操作任务和一种导航任务上都取得了最先进的性能。

论文链接：
https://arxiv.org/abs/2402.16117
项目地址：
https://sites.google.com/view/robocodexplus

6.InstructEdit：基于指令的大模型知识编辑

对大型语言模型（LLMs）的知识编辑可以提供一种有效的解决方案，在不对整体性能产生负面影响的情况下改变模型的行为。然而，当前的方法存在跨任务泛化能力有限的问题，每个任务都需要一个不同的编辑器，这极大地阻碍了更广泛的应用。

为此，来自浙江大学和腾讯公司的研究团队开发了一项基于指令的编辑技术—— InstructEdit，它可以通过简单的指令使编辑器同时适应各种任务的执行。在每个 LLM 只有一个统一编辑器的情况下，实验证明 InstructEdit 可以提高编辑器的控制能力，从而使多任务编辑设置中的可靠性平均提高 14.86%。

此外，涉及保留未见任务的实验表明，InstructEdit 不断超越以前的强基线。为了进一步研究基于指令的知识编辑的内在机制，研究团队分析了编辑梯度方向的主成分，发现指令可以帮助控制优化方向，并具有更强的 OOD 泛化能力。

论文链接：
https://arxiv.org/abs/2402.16123
项目地址：
https://github.com/zjunlp/EasyEdit

7.MobiLlama：实现准确、轻量级的全透明 GPT

“Bigger the better”是近年来大型语言模型（LLMs）发展的主流趋势。然而，LLMs 并不适合需要在设备上处理、节能、低内存占用和响应效率的应用场景。这些要求对于隐私、安全和可持续部署至关重要。

来自阿联酋人工智能大学、澳大利亚国立大学、阿尔托大学、墨尔本大学和林雪平大学的研究团队在其研究中探讨了“less is more”的范式，解决了为资源有限的设备设计精确高效的小型语言模型（SLMs）的难题。

研究团队提出了一个精确且完全透明的开源 5 亿（0.5B）参数 SLM——MobiLlama，专门满足资源受限计算的特定需求，重点是在降低资源需求的同时提高性能。MobiLlama 是一种从一个更大的模型出发的 SLM 设计，它采用一种谨慎的参数共享方案来降低预训练和部署成本。

论文链接：
https://arxiv.org/abs/2402.16840
项目地址：
https://github.com/mbzuai-oryx/MobiLlama