LLM论文周报|来自微软、加州大学、清华大学、卡内基梅隆大学等机构

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。它们在大量的文本数据上进行训练,可以执行广泛的任务,包括文本总结、翻译、情感分析等等。LLM的特点是规模庞大,包含数十亿的参数,帮助它们学习语言数据中的复杂模式。这些模型通常基于深度学习架构,如转化器,这有助于它们在各种NLP任务上取得令人印象深刻的表现。

2022年底,OpenAI 推出的基于 GPT-3.5 的大型语言模型 ChatGPT,由于其优秀的表现,ChatGPT 及其背后的大型语言模型迅速成为人工智能领域的热门话题,吸引了广大科研人员和开发者的关注和参与。

本周精选了10篇LLM领域的优秀论文,来自微软、加州大学、清华大学、卡内基梅隆大学等机构。

为了方便大家阅读,只列出了论文标题、作者、ChatPaper综述等信息,如果感兴趣可点击链接查看原文,PC端数据同步(收藏即可在PC端查看)。

1.Towards Understanding the Capability of Large Language Models on Code Clone Detection: A Survey 论文详情页

链接:https://www.aminer.cn/pub/64cb267b3fda6d7f06ab6c51/

ChatPaper综述:关于大型语言模型 (LLMs) 在代码克隆检测方面的能力评估。论文指出,代码克隆是软件开发中的常见现象,自动代码克隆检测对于维护软件的可维护性和避免引入错误至关重要。尽管 LLMs 拥有与代码相关的多种知识,但它们在代码克隆检测方面的表现仍不清楚,需要进行更多研究以准确评估。该论文对 LLMs 在克隆检测方面的性能进行了首次全面评估,涵盖了不同类型的克隆、编程语言和提示。研究结果表明,先进的 LLMs 在检测语义复杂的克隆方面表现优异,超过了现有的方法。通过链式思维提示添加中间推理步骤会显著提高性能。此外,使用向量嵌入来表示代码,特别是使用文本编码器,可以有效地帮助检测代码克隆。最后,该研究还发现,LLMs 在检测代码克隆方面的能力因编程语言而异。该研究结果表明,LLMs 由于其语言能力,在克隆检测方面具有潜力,并提供了开发稳健的基于 LLM 的方法来提高软件工程的见解。

2.Unified Model for Image, Video, Audio and Language Tasks 论文详情页

链接:https://www.aminer.cn/pub/64c88ca43fda6d7f0626884a/

ChatPaper综述:大型语言模型(LLMs)使得构建通用代理不再是遥不可及的目标。然而,任务和模态的多样性和异质性是构建这种通用模型的一个关键难题。统一模型是一个有前景的解决方案,它可以在一个统一的框架内支持各种任务和模态。尽管一些大型模型(如 Flamingo,训练数据集巨大)已经能够支持超过两种模态,但当前的中小规模统一模型仍然局限于 2 种模态,通常是图像-- 文本或视频-- 文本。我们提出的问题是:是否可以有效地构建一个支持所有模态的统一模型?为了回答这个问题,我们提出了 UnIVAL,朝这个雄心勃勃的目标迈出了一步。在不依赖于大型数据集或十亿参数规模模型的情况下,UnIVAL 模型的参数数量约为 0.25B,将文本、图像、视频和音频统一到一个模型中。我们的模型在许多任务上高效地预训练,基于任务平衡和多模态课程学习。UnIVAL 在图像和视频-- 文本任务上的表现与现有最先进方法相当。图像和视频-- 文本模态中学到的特征表示,使得模型能够在音频-- 文本任务上实现竞争性性能,尽管该模型没有在音频上进行预训练。由于统一模型,我们提出了一种通过不同多模态任务上训练的模型权重插值进行多模态模型合并的新研究,显示出特别是在分布外泛化方面的优势。最后,我们通过展示任务之间的协同作用来论证统一的必要性。

3.Learning to Model the World with Language 论文详情页

链接:https://www.aminer.cn/pub/64cc77b33fda6d7f06aebc4f/

ChatPaper综述:本论文探讨了如何使用语言来帮助智能体更好地理解世界并与人类互动。传统的智能体仅能根据任务奖励来执行简单的语言指令,而本文提出了一种新的方法,即利用多样性的语言来获取更广泛的知识,包括描述世界状态、提供交互反馈等等。该方法将语言理解与未来预测相结合,作为一种强大的自监督学习目标。本文介绍了 Dynalang,一种可以学习多模态世界模型并预测未来文本和图像表示的智能体,同时通过使用过去的语言来预测未来的语言、视频和奖励,而不仅仅是行动。Dynalang 不仅可以在环境中进行在线交互学习,还可以在没有行动或奖励的情况下预先训练于文本、视频或两者的集合上。通过使用网格世界中的语言提示来导航照片级扫描的家庭等任务,Dynalang 利用了不同类型的语言来提高任务性能,包括环境描述、游戏规则和指令等。

4.Scaling TransNormer to 175 Billion Parameters 论文详情页

链接:https://www.aminer.cn/pub/64c33dc33fda6d7f0695871d/

ChatPaper综述:本文介绍了一种名为 TransNormerLLM 的大型语言模型,是第一个基于线性注意力的 LLM,性能优于传统的基于 softmax 注意力的模型。TransNormerLLM 对之前的 TransNormer 线性注意力架构进行了高级改进,包括位置嵌入、线性注意力加速、门控机制、张量归一化、推理加速和稳定化等。具体而言,我们使用 LRPE 结合指数衰减来避免注意力稀释问题,同时允许模型保留令牌之间的全局交互。此外,我们提出了一种名为 Lightning Attention 的先进技术,可以加速线性注意力超过两倍,并将内存使用量减少四倍。为了进一步提高 TransNormer 的性能,我们利用门控机制来平滑训练,并采用新的张量归一化方案来加速模型,加速幅度超过 20%。此外,我们开发了一种鲁棒的推理算法,可以确保数值稳定性和一致的推理速度,无论序列长度如何,都表现出卓越的效率。可扩展性是我们模型设计的核心,使得模型可以无缝部署在大型集群上,并方便地扩展到更广泛的模型,同时保持出色的性能指标。通过在我们自己收集的超过 6TB、包含超过 2 万亿个令牌的语料库上进行一系列全面的实验,对模型设计进行了严格的验证。为了确保数据质量和相关性,我们实现了一种新的自清洁策略来过滤我们收集的数据。我们将发布预训练的模型,以促进社区在高效 LLM 方面的进步。

5.Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding 论文详情页

链接:https://www.aminer.cn/pub/64c731d03fda6d7f06824439/

ChatPaper综述:这篇工作旨在降低大型语言模型 (LLMs) 的端到端生成延迟。导致高生成延迟的主要原因是几乎所有最先进的 LLMs 采用的顺序解码方法。在这篇论文中,我们受到人类思考和写作过程的启发,提出了"Skeleton-of-Thought"(SoT),它指导 LLMs 首先生成答案的骨架,然后以并行的方式完成每个骨架点的内容。SoT 不仅提供了可观的加速 (在 11 个不同的 LLMs 上达到了 2.39 倍),而且在某些问题类别上,它还可以通过多样性和相关性潜在地提高答案质量。SoT 是数据优化的第一步,揭示了将 LLMs 推向更像人类思考以提高答案质量的潜力。

6.WebArena: A Realistic Web Environment for Building Autonomous Agents 论文详情页

链接:https://www.aminer.cn/pub/64c1ec613fda6d7f0639738b/

ChatPaper综述:这篇论文介绍了 WebArena 环境,它是一个高度逼真、可重现的 Web 自动化环境。该环境旨在为构建自主代理提供命令和控制平台,代理可以在 Web 上执行各种任务。该环境涵盖了四个常见领域:电子商务、社交媒体讨论、协作软件开发和内容管理。环境中添加了许多工具和外部知识库,以鼓励像人类一样解决问题。基于该环境,作者发布了一些基准任务,主要关注任务的功能性正确性。这些任务是多样化的,具有长期 horizon,旨在模拟人类在互联网上执行的各种任务。作者设计和实现了一些自主代理,并集成了最近的研究成果,例如推理前行动。结果表明,解决复杂的任务是非常具有挑战性的,最好的 GPT-4 代理仅实现了端到端任务成功率的 10.59%。这些结果强调了进一步开发可靠代理的必要性,并表明 WebArena 可以用于衡量这些进展。该论文的代码、数据、环境重现资源和视频演示稿均公开可用。

7.ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs 论文详情页

链接:https://www.aminer.cn/pub/64c88ca43fda6d7f06268bf1/

ChatPaper综述:尽管开源大型语言模型 (LLMs) 和它们的变种 (如 LLaMA 和 Vicuna) 取得了进展,但它们在执行更高级别的任务方面,如按照人类指令使用外部工具 (APIs),仍然存在重大局限性。这是因为当前的指令调整主要集中在基本语言任务上,而不是工具使用领域。这与最先进的 LLMs(如 ChatGPT) 相比,尽管它们表现出优秀的工具使用能力,但遗憾的是是闭源的。为了在开源 LLM 中促进工具使用能力,引入了 ToolLLM,一个工具使用领域的数据构建、模型训练和评估通用框架。首先介绍了 ToolBench,一个用于工具使用的指令调整数据集,该数据集是通过 ChatGPT 自动创建的。具体而言,收集了 RapidAPI Hub 中的 16,464 个真实世界 RESTful APIs,涵盖 49 个类别,然后提示 ChatGPT 生成涉及这些 API 的多样化人类指令,包括单工具和多工具场景。最后,使用 ChatGPT 为每个指令搜索有效的解决方案路径 (API 调用的链)。为了使搜索过程更有效,开发了一种基于深度优先搜索的决策树 (DFSDT),使 LLMs 能够评估多个推理轨迹并扩展搜索空间。表明,DFSDT 显著增强了 LLM 的规划和推理能力。为了有效地评估工具使用能力,开发了一个自动评估器:ToolEval。在 ToolBench 上微调 LLaMA 并获得 ToolLLaMA。ToolEval 显示,ToolLLaMA 在执行复杂指令和推广到未见过的 API 方面表现出显著的能力,并且性能与 ChatGPT 相当。为了使流程更具实用性,设计了一个神经 API 检索器,用于为每个指令推荐适当的 API,无需手动选择 API。

8.Exploring Format Consistency for Instruction Tuning 论文详情页

链接:https://www.aminer.cn/pub/64c731d63fda6d7f06824adb/

ChatPaper综述:探索格式一致性对于指令调整的影响\n\n摘要:指令调整是一种有前途的方法,可以提高大型语言模型在遵循人类指令方面的性能。研究表明,增加训练数据中指令的多样性和数量可以一致地提高泛化性能,这促使人们最近收集各种指令并将现有的指令调整数据集整合到更大的数据集中。然而,不同的用户有自己独特的表达指令的方式,不同数据集中的指令风格和格式可能存在差异,即格式不一致。在本工作中,我们研究格式不一致可能对指令调整性能产生什么影响。我们提出了一个名为“统一指令调整”(UIT)的框架,该框架可以自动将在不同指令调整数据集之间的格式转换。我们展示了 UIT 成功改进了未见过的指令上的泛化性能,这强调了格式一致性对于指令调整的重要性。为了使 UIT 框架在实践中更具实用性,我们进一步提出了一种新颖的基于困惑度的去噪方法,以减少自动格式转换的噪声。我们还训练了一个较小的离线模型,其格式转换能力与 OpenAI API 相当,以降低实践成本。

9.Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models 论文详情页

链接:https://www.aminer.cn/pub/64c9d5323fda6d7f0637e964/

ChatPaper综述:如今,大型语言模型 (LLMs) 通过提供一些工具使用演示来学习使用新工具。然而,演示很难获取,如果选择了错误的演示,可能会导致不良的偏见使用。即使演示很容易获得,也没有原则性的选择协议来确定要提供多少和哪些演示。随着任务变得越来越复杂,选择搜索呈组合式增长,不可避免地变得无法解决。我们的工作提供了一种替代演示的方法:工具文档。我们主张使用工具文档,即个体工具使用的描述,而不是演示。我们通过在 6 个任务上跨越视觉和语言模态的主要实证发现,证实了我们的主张。首先,在现有的基准测试中,只有工具文档的零散提示就足以引发正确的工具使用,实现了与少量提示相当的性能。其次,在一个新的、真实的工具使用数据集上,该数据集包含数百个可用工具 API,我们表明工具文档比演示更有价值,零散的文档显著优于没有文档的少量提示。最后,我们强调了工具文档的好处,通过使用刚刚发布的未见过的最先进的模型作为工具来解决图像生成和视频跟踪问题。最后,我们强调了使用工具文档来自动实现新应用的可能性:通过使用 GroundingDino、Stable Diffusion、XMem 和 SAM 的文档,LLMs 可以重新发明刚刚发布的 Grounded-SAM 和 Track Anything 模型的功能。

10.RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control 论文详情页

链接:https://www.aminer.cn/pub/64c7632d47023912398be1f5/

ChatPaper综述:本文研究了如何将训练于互联网规模数据的视觉语言模型直接应用于端到端机器人控制,以提高泛化能力并实现应急语义推理。为了实现这一目标,作者提出了一种同时对机器人轨迹数据和互联网规模视觉语言任务 (如视觉问答) 进行共精调的方法,用以训练视觉语言动作模型 (VLA)。与其他方法不同,为了将自然语言响应和机器人动作纳入同一格式,作者将动作表示为文本标记并将其直接纳入模型训练集,如同自然语言标记一样。作者实例化了一个名为 RT-2 的 VLA 模型,并进行了广泛的评估 (6,000 次评估试验),结果表明,该方法导致表现良好的机器人策略,并使 RT-2 能够从互联网规模训练中获得一系列应急能力,包括显著提高对新物体的泛化能力、能够解释机器人训练数据中未出现的指令 (如将物体放到特定数字或图标上),以及能够进行简单的语义推理以响应用户指令 (如拾起最小或最大的物体,或离另一个物体最近的物体)。作者进一步表明,通过融入推理链,RT-2 能够进行多阶段语义推理,例如确定拾起哪个物体作为临时锤子 (石头),或者哪种饮料最适合疲劳的人 (能量饮料)。


如何使用ChatPaper?

作为科研人员,每天需要检索和浏览大量的学术文献,以获取最新的科技进展和研究成果。然而,传统的检索和阅读方式已经无法满足科研人的需求。

ChatPaper是一款集检索、阅读、知识问答于一体的对话式私有知识库,AMiner希望通过技术的力量,让大家更加高效地获取知识。

👉ChatPaper使用教程

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值