大家好,今日必读的大模型论文来啦!
1.智谱AI、清华团队推出大模型基于规则的推理能力新基准 LogicGame
大语言模型(LLM)在各种任务中都表现出了显著的能力,展示了解决复杂问题的能力。理解和执行复杂规则以及多步骤规划是逻辑推理的基础,也是实用 LLM 智能体(agent)和决策系统的关键。然而,对 LLM 作为有效的基于规则的执行者和规划者进行评估的研究仍然不足。
在这项工作中,为评估 LLM 的综合规则理解、执行和规划能力,来自智谱AI 和清华大学的研究团队推出了一种新基准 LogicGame。与传统基准不同,LogicGame 提供了包含一系列初始状态规则的多样化游戏,要求模型理解并应用预定义的规则来解决问题。
他们创建模拟场景,让模型执行或规划操作,从而实现特定结果。这些游戏场景是专门设计的,通过完全依赖预定义的规则来区分逻辑推理和纯粹的知识。通过这种区分,可以对基于规则的推理能力进行纯粹的评估。评估不仅考虑最终结果,还考虑中间步骤,从而对模型性能进行全面评估。此外,这些中间步骤是确定的,可以自动验证。从简单的规则应用到复杂的推理链,LogicGame 定义了不同难度的游戏场景,以便对模型在规则理解和多步骤执行方面的性能进行精确评估。
利用 LogicGame,他们测试了各种 LLM,并发现了它们在基于规则的逻辑推理能力方面存在的明显不足。
论文链接:
https://arxiv.org/abs/2408.15778
2.清华团队推出多智能体系统大模型合作、竞争评估基准
大语言模型(LLM)可以处理复杂任务,比如单智能体(agent)和多智能体系统的构建。与单智能体相比,多智能体系统对语言模型的协作能力要求更高。人们提出了许多基准来评估它们的协作能力。然而,这些基准缺乏对 LLM 协作能力的细粒度评估。此外,现有研究还忽略了多智能体协作和竞争场景。
为解决以上两个问题,来自清华大学的研究团队推出了一个名为“BattleAgentBench”的基准,其定义了三个不同难度级别的七个子阶段,并从单个智能体场景导航能力、成对智能体任务执行能力以及多智能体协作和竞争能力等方面对语言模型进行了细粒度评估。
他们对四个闭源模型和七个开源模型进行了广泛的评估。实验结果表明,基于 API 的模型在简单任务上表现出色,但开源小模型在简单任务上表现不佳。至于需要协作和竞争能力的高难度任务,虽然基于 API 的模型已经展示了一定的协作能力,但仍有巨大的改进空间。
论文链接:
https://arxiv.org/abs/2408.15971
3.Dolphin:新型解码器-解码器,高效处理长上下文
在这项工作中,来自 Nexa AI 的研究团队提出了一种新型解码器-解码器(decoder-decoder)架构 Dolphin,用于在语言模型中高效处理长上下文。他们的方法解决了端侧模型固有的巨大能耗和延迟难题。
Dolphin 采用了一个 0.5B 参数的紧凑型解码器,将大量上下文信息提炼到内存嵌入中,从而大大减少了主要 7B 参数解码器模型的输入长度。受视觉语言模型的启发,他们重新利用图像嵌入投影器对长文本上下文进行编码,从而有效地将扩展上下文作为一种独特的模式来处理。这种创新方法能够处理更长的上下文,而不会产生与扩展输入序列相关的典型计算开销。
经验评估表明,与传统的全长上下文处理方法相比,该方法的能效提高了 10 倍,延迟时间缩短了 5 倍,而且不会降低响应质量。我们的工作有助于为端侧应用开发更具可持续性和可扩展性的语言模型,满足在资源受限环境中对高能效、高响应性人工智能技术的迫切需求,同时保持理解长上下文的准确性。
论文链接:
https://arxiv.org/abs/2408.15518
4.通过下一个 token 预测进行上下文模仿学习
在这项工作中,来自加州大学伯克利分校的研究团队探讨了如何增强下一个 token 预测模型,以便在真实机器人上执行上下文模仿学习,即机器人通过解释输入阶段提供的上下文信息来执行新任务,而无需更新其底层策略参数。
他们提出的“上下文机器人 Transformer”(In-Context Robot Transformer,ICRT)是一种因果 Transformer,可对传感器运动轨迹进行自回归预测,而无需依赖任何语言数据或奖励函数。通过使用由图像观察、动作和状态元组组成的新任务的传感器运动轨迹(通过人类远程操作收集)来提示模型,这种方法可在测试时灵活、无需额外训练地执行新任务。
使用弗兰卡-埃米卡机器人进行的实验表明,即使环境配置与提示和训练数据不同,ICRT 也能适应提示指定的新任务。在多任务环境设置中,ICRT 在泛化到未见任务方面的表现明显优于目前机器人领域其他下一个 token 预测模型。
论文链接:
https://arxiv.org/abs/2408.15980
项目地址:
https://icrt.dev/
5.生成式插值:将图像到视频模型用于关键帧插值
在这项工作中,来自华盛顿大学和 Google DeepMind 的研究团队提出了一种在一对输入关键帧之间生成具有连贯运动的视频序列的方法。
他们将预先训练好的大规模图像到视频扩散模型(最初经过训练可从单个输入图像生成向前移动的视频)用于关键帧插值,即生成两个输入帧之间的视频。他们通过一种轻量级微调技术实现了这一调整,该技术生成的模型版本可预测从单个输入图像生成向前移动的视频。该模型(连同原始的前向移动模型)随后被用于双向扩散采样过程,该过程结合了从两个关键帧中的每一个开始的重叠模型估计值。
实验表明,这一方法优于现有的基于扩散的方法和传统的帧插值技术。
论文链接:
https://arxiv.org/abs/2408.15239
项目地址:
https://svd-keyframe-interpolation.github.io/
6.Llama 中的 Mamba:提炼和加速混合模型
线性 RNN 架构(如 Mamba)在语言建模方面可与 Transformer 模型相媲美,同时还具有更好的部署特性。
鉴于重点为训练大规模 Transformer 模型,来自康奈尔大学、日内外大学和 Together AI 的研究团队考虑了将这些预训练模型转换为部署模型的挑战。他们证明,利用学术 GPU 资源,通过重复使用注意力层的线性投影权重,将大型 Transformer 提炼为线性 RNN 是可行的。由此产生的混合模型包含了四分之一的注意力层,在聊天基准测试中的性能可与原始 Transformer 相媲美,在聊天基准测试和一般基准测试中的性能均优于使用数万亿 token 从头开始训练的开源混合 Mamba 模型。此外,他们还引入了一种硬件感知的投机解码算法,可加快 Mamba 和混合模型的推理速度。
总之,他们展示了如何利用有限的计算资源,移除许多原始注意力层,并更高效地生成模型。他们从 Llama3-8B-Instruct 中提炼出的 SOTA 模型在 AlpacaEval 2 对战 GPT-4 的比赛中取得了 29.61 的 length-controlled 胜率,在 MT-Bench 上取得了 7.35 的胜率,超过了其他指令微调线性 RNN 模型。
论文链接:
https://arxiv.org/abs/2408.15237
GitHub 地址:
https://github.com/jxiw/MambaInLlama
7.谷歌:扩散模型是实时游戏引擎
在这项工作中,谷歌团队提出了首个完全由神经模型驱动的游戏引擎 GameNGen,其可以在长轨迹上与复杂环境进行高质量的实时交互。GameNGen 可以在单个 TPU 上以每秒 20 帧以上的速度交互模拟经典游戏 DOOM。下一帧预测的 PSNR 为 29.4,与有损 JPEG 压缩相当。在区分游戏短片和模拟短片方面,人类评分员的表现仅略高于随机概率。GameNGen 分两个阶段进行训练:(1) 一个强化学习(RL)agent 学习玩游戏,并记录训练过程;(2) 训练一个扩散模型,以过去的帧和动作序列为条件生成下一帧。条件增强可在长轨迹上实现稳定的自动回归生成。
论文链接:
https://arxiv.org/abs/2408.14837
项目地址:
https://gamengen.github.io/