大模型日报|8 篇必读的大模型论文

在这里插入图片描述
大家好,今日必读的大模型论文来啦!

OpenAI 提出 AI 研究复现基准 PaperBench

在这项工作中,OpenAI 团队提出了 PaperBench,这是一个评估 agent 复现 SOTA AI 研究能力的基准。agent 必须从零开始复现 20 篇 ICML 2024 Spotlight 和 Oral 论文,包括理解论文贡献、开发代码库和成功执行实验。

为了进行客观评估,他们制定了评分标准,将每个复现任务分层分解为具有明确评分标准的更小的子任务。PaperBench 总共包含 8316 个可单独评分的任务。为了保证准确性和真实性,他们与每篇 ICML 论文的作者共同开发了评分标准。为了实现可扩展的评估,他们还开发了基于 LLM 的评判器,可根据评分标准自动对复现尝试进行评分,并通过为评判器创建单独的基准来评估评判器的性能。

他们在 PaperBench 上对几个前沿模型进行了评估,发现表现最好的测试 agent——采用开源脚手架的 Claude 3.5 Sonnet (New)——的平均复制得分达到了 21.0/%。最后,他们招募了顶尖的 ML 博士来尝试 PaperBench 的一个子集,结果发现模型的性能尚未超过人类基线。

论文链接:
https://arxiv.org/abs/2504.01848
GitHub 地址:
https://github.com/openai/preparedness

腾讯提出 AnimeGamer:无限动漫生活模拟

图像和视频合成技术为生成式游戏带来了新的希望。其中一个特别吸引人的应用是将动漫电影中的角色转化为可玩的互动实体。这样,玩家就可以通过语言指令,扮演自己喜爱的角色,沉浸在动态的动漫世界中,进行生活模拟。这类游戏被定义为无限游戏,因为它们消除了预先确定的界限和固定的游戏规则,玩家可以通过开放式语言与游戏世界互动,体验不断发展的故事情节和环境。

最近,一种用于无限动漫生活模拟的方法采用了大语言模型(LLM),将多轮文本对话转化为生成图像的语言指令。然而,这种方法忽略了历史视觉背景,导致游戏不连贯。此外,它只能生成静态图像,无法融入吸睛的游戏体验所需的动态效果。

在这项工作中,来自腾讯和香港城市大学的研究团队提出了 AnimeGamer,它建立在多模态大语言模型(MLLM)基础上,用于生成每个游戏状态,包括描述角色动作和角色状态更新的动态动画镜头。他们引入了新颖的动作感知多模态表征法来表示动画镜头,这些镜头可以通过视频扩散模型解码为高质量的视频片段。通过将历史动画镜头表现作为上下文并预测后续表现,AnimeGamer 可以生成具有上下文一致性和令人满意的动态效果的游戏。使用自动指标和人工评估进行的广泛评估表明,AnimeGamer 在游戏体验的各个方面都优于现有方法。

论文链接:
https://arxiv.org/abs/2504.01014
项目地址:
https://howe125.github.io/AnimeGamer.github.io/

上交大、OPPO:提高 MLLM 视觉空间推理

作为在物理领域发挥作用的 agent 的基础,基于视频的视觉空间智能(VSI)是多模态大语言模型(MLLM)最关键的推理能力之一。

在这项工作中,来自上海交通大学和 OPPO 的研究团队首次深入研究了如何通过类 R1-Zero 训练来提高 MLLM 的视觉空间推理能力。在技术上,他们首先发现中小型 Qwen2-VL 模型的视觉空间推理能力无法通过思维链(CoT)提示激活。然后,他们利用精心策划的 VSI-100k 数据集,结合 GRPO 训练来提高视觉空间推理能力。在研究过程中,他们发现有必要在 GRPO 中保留 KL 惩罚(即使是很小的值)。

仅用了 120 个 GPU 小时,他们在 Qwen2-VL-2B 基础上微调的 vsGRPO-2B 模型就比基础模型高出 12.1%,超过了 GPT-4o。此外,根据 Qwen2-VL-7B 微调的 vsGRPO-7B 模型的性能与 SOTA 开源模型 LLaVA-NeXT-Video-72B 不相上下。

论文链接:
https://arxiv.org/abs/2504.00883

Meta 提出「多 token 注意力」MTA

软注意力(Soft attention)是大语言模型(LLM)在给定上下文中定位相关部分的关键机制。然而,单个注意力权重仅由单个查询和 key token 向量的相似性决定。这种“单一 token 注意力”限制了用于将相关部分与上下文其他部分区分开来的信息量。

为了解决这个问题,Meta 团队提出了一种新的注意力方法——多 token 注意力(MTA),它允许 LLM 同时将多个查询和 key 向量作为其注意力权重的条件。这是通过对查询、key 和(注意力)头进行卷积操作来实现的,允许附近的查询和 key 影响彼此的注意力权重,从而实现更精确的注意力。因此,这一方法可以利用更丰富、更细微的信息来定位相关上下文,这可能会超过单一向量的能力。

广泛的评估证明,MTA 在一系列主流基准测试中实现了更高的性能。值得注意的是,在标准语言建模任务和需要在长上下文中搜索信息的任务中,它的性能都优于 Transformer 基线模型,而这一方法利用更丰富信息的能力在这些任务中尤为突出。

论文链接:
https://arxiv.org/abs/2504.00927

清华、耶鲁提出 ZI:高效「测试时扩展」

大语言模型(LLM)可以通过测试时计算扩展来实现更强的复杂问题解决能力,但这往往需要更长的上下文和大量的推理 token 成本。

在这项工作中,来自清华大学和耶鲁大学的研究团队提出了一种高效的测试时扩展方法,其可以在与代码相关的推理轨迹上训练 LLM,从而在保持性能的同时减少多余的思考 token。首先,他们创建了 Z1-Code-Reasoning-107K,这是一个由简单和复杂编码问题及其长短解轨迹组成的数据集。其次,他们提出了“转移思考窗口”(Shifted Thinking Window),通过移除上下文限制 token 和推理 token 上限来减轻过度思考的开销。

Z1-7B 使用长短轨迹数据进行训练,并配备了 Shifted Thinking Window,可以根据问题的复杂程度调整推理水平,并在不同的推理任务中表现出高效的测试时扩展能力,只需约 30% 的平均思考 token 就能达到 R1-Distill-Qwen-7B 的性能。值得注意的是,Z1-7B 只对代码轨迹进行了微调,但在更广泛的推理任务中表现出了通用性。

论文链接:
https://arxiv.org/abs/2504.00810
GitHub 地址:
https://github.com/efficientscaling/Z1

Agent S2:Computer Use agent 通才-专家框架

Computer use agent 通过与计算机和移动设备上的图形用户界面(GUI)直接交互,来自动执行数字任务,通过完成开放式的用户查询空间,为提高人类的工作效率提供了巨大的潜力。然而,当前的 agent 面临着以下挑战:GUI 元素的不精确接地(grounding)、长程任务规划困难,以及依赖单一通用模型完成不同认知任务的性能瓶颈。

为此,Simular Research 团队推出了一个新颖的组合框架——Agent S2,其可以将认知责任分派给不同的通才和专才模型。他们提出了一种新颖的混合接地技术(Mixture-of-Grounding),以实现精确的 GUI 定位,并引入了主动分层规划(Proactive Hierarchical Planning),根据不断变化的观察结果,在多个时间尺度上动态完善行动计划。

评估结果表明,Agent S2 在 Computer use 基准测试中取得了 SOTA 性能。具体来说,在 OSWorld 15 步和 50 步评估中,Agent S2 比 Claude Computer Use 和 UI-TARS 等领先基线 agent 分别提高了 18.9% 和 32.7%。此外,Agent S2 还能有效地应用于其他操作系统和应用程序,在 WindowsAgentArena 上比以前的 SOTA 方法高出 52.8%,在 AndroidWorld 上相对高出 16.52%。

论文链接:
https://arxiv.org/abs/2504.00906
GitHub 地址:
https://github.com/simular-ai/Agent-S

综述:实现 LLM 的「推理经济性」

大语言模型(LLM)初步具备了执行复杂推理任务的能力,正在从快速直观的思维(系统 1)过渡到缓慢深入的推理(系统 2)。虽然系统 2 推理提高了任务的准确性,但由于其思考缓慢、推理行为的低效或不必要,往往会产生大量计算成本。与此相反,系统 1 的推理虽然计算效率高,但却无法达到更好的性能。因此,平衡性能(收益)和计算成本(预算)之间的权衡至关重要,这就产生了推理经济性(reasoning economy)的概念。

在这项工作中,来自香港中文大学和澳门大学的研究团队及其合作者全面分析了 LLM 后训练和测试时推理阶段的推理经济性,包括推理低效的原因、不同推理模式的行为分析,以及实现推理经济性的潜在解决方案。通过提供可操作的见解和突出公开的挑战,他们旨在阐明改善 LLM 推理经济性的策略。

论文链接:
https://arxiv.org/abs/2503.24377
GitHub 地址:
https://github.com/DevoAllen/Awesome-Reasoning-Economy-Papers

AI 推理全靠背?o1、R1 竟答不对小学推理问题

近年来,大语言模型(LLM)基准的难度从小学水平迅速提升到前沿问题。然而,按照人类的标准,LLM 的强大推理能力是否真的来自于真正的智能,还是它们只是在背诵互联网水平训练中目睹的解决方案?

为了研究这个问题,字节跳动 Seed 团队提出了一个多模态基准 RoR-Bench,用于检测 LLM 在被问及简单推理问题但条件发生微妙变化时的背诵行为。他们发现,现有的主流 LLM 一致表现出极其严重的背诵行为;只需改变条件中的一个短语,OpenAI-o1 和 DeepSeek-R1 等模型就会在小学水平的算术和推理问题上损失 60% 的性能。

论文链接:
https://arxiv.org/abs/2504.00509

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值