大家好,今日必读的大模型论文来啦!
Meta 提出首个「电影级对话角色」合成方法 MoCha
视频生成技术已经实现了令人印象深刻的动作逼真度,但往往忽略以角色为驱动的故事叙述,而这正是自动生成电影和动画的关键任务。
在这项工作中,来自 Meta 和滑铁卢大学的研究团队提出了 Talking Characters(正在讲话的角色),这是一项更现实的任务,直接从语音和文本生成正在说话的角色动画。与 talking head 不同,talking characters 旨在生成一个或多个角色不止面部的完整肖像。为此,他们提出了首个用于生成 talking characters 的 MoCha。
为了确保视频和语音的准确同步,他们提出了一种语音视频窗口注意力机制,有效对齐语音和视频 token。为了解决大规模语音标注视频数据集稀缺的问题,他们引入了一种联合训练策略,利用语音标注和文本标注的视频数据,显著提高了对不同角色动作的泛化能力。他们还设计了带有角色标签的结构化提示模板,首次实现了基于回合的多角色对话——允许 AI 生成的角色进行具有电影连贯性的上下文感知对话。
广泛的定性和定量评估(包括人类偏好研究和基准比较)表明,MoCha 为 AI 生成的电影故事设定了新标准,实现了高逼真度、表现力、可控性和通用性。
论文链接:
https://arxiv.org/abs/2503.23307
项目地址:
https://congwei1230.github.io/MoCha/
综述:大语言模型的测试时扩展
随着人们对预训练计算(数据和参数)扩展的热情逐渐减退,测试时扩展(TTS)(也称为“测试时间计算”)已成为另一个研究重点。
最近的研究表明,TTS 可以进一步激发大语言模型(LLM)的问题解决能力,不仅能在数学和编码等专业推理任务中实现突破,还能在开放式问答等一般任务中实现突破,但仍然迫切需要一份全面的调查报告来提供系统性的理解。
为了填补这一空白,来自香港大学和麦吉尔大学的研究团队及其合作者提出了一个统一的多维框架,该框架以 TTS 研究的四个核心维度为基础:扩展什么、如何扩展、在哪里扩展以及扩展得如何。在这一分类法的基础上,他们对各种方法、应用场景和评估方面进行了广泛的审查,并提出了一个分解方案,强调了各种技术在更广泛的 TTS 领域中的独特功能作用。从这一分析中,他们提炼出了迄今为止 TTS 的主要发展轨迹,并为实际部署提供了实践指南。此外,他们还确定了几个有待解决的挑战,并对未来有前景的发展方向提出了见解,包括进一步扩大规模、明确技术的功能本质、推广到更多任务和更多归因。
论文链接:
https://arxiv.org/abs/2503.24235
RIG:在端到端通用策略中协同推理和想象
对于在复杂的开放世界环境中运行的具身 agent 来说,行动前的推理和对潜在结果的想象(即世界模型)至关重要。然而,之前的研究要么只将其中一种能力整合到端到端 agent 中,要么将多种专业模型整合到 agent 系统中,从而限制了策略的学习效率和通用性。
在这项工作中,来自浙江大学和上海 AI Lab 的研究团队首次尝试在端到端通用策略(称为 RIG)中协同推理和想象。为了以端到端的方式训练 RIG,他们构建了一个数据管道,逐步整合和丰富从现有 agent 收集的轨迹中的想象和推理内容。推理和下一幅图像生成的联合学习明确地模拟了推理、行动和环境动态之间固有的相关性,因此与之前的工作相比,样本效率和泛化能力提高了 17 倍以上。在推理过程中,RIG 首先对下一步行动进行推理,产生潜在的行动,然后预测行动结果,这为 agent 提供了在采取实际行动之前根据想象进行回顾和自我修正的机会。
实验结果表明,推理和想象力的协同作用不仅提高了通用策略的鲁棒性、泛化和互操作性,还促进了测试时扩展,从而提高整体性能。
论文链接:
https://arxiv.org/abs/2503.24388
阶跃星辰开源 Open-Reasoner-Zero:在基础模型上扩展强化学习
在这项工作中,阶跃星辰团队提出了 Open-Reasoner-Zero,是首个面向推理的大规模 RL 训练的开源实现,注重可扩展性、简易性和可访问性。
通过广泛的实验,他们证明了一种极简方法,即采用 GAE(λ=1,γ=1)的 vanilla PPO 和基于规则的直接奖励,无需任何 KL 正则化,就足以扩展响应长度和基准性能,这与 DeepSeek-R1-Zero 中观察到的现象类似。使用与 DeepSeek-R1-Zero-Qwen-32B 相同的基础模型,他们的实现在 AIME2024、MATH500 和 GPQA Diamond 基准测试中取得了足够好的性能,同时还展现了很好的效率——与 DeepSeek-R1-Zero 管道相比,只需要 1/10 的训练步骤。
论文链接:
https://arxiv.org/abs/2503.24290
微软:在交互式编码环境下开发 LLM agent
大语言模型(LLM)越来越多地被用于编码任务,但在大多数情况下,人们认为所有相关信息都可以通过上下文获取或与其训练数据相匹配。
来自微软的研究团队及其合作者认为,LLM 可以从交互式探索代码库的能力中获益,从而收集与其任务相关的信息。为此,他们提出了一个文本环境,即 debug-gym,用于在交互式编码环境中开发基于 LLM 的 agent。这一环境是轻量级的,并提供了预设的有用工具,如 Python 调试器(pdb),旨在促进基于 LLM 的 agent 的交互式调试。除了编码和调试任务之外,这种方法还可以推广到其他任务中,这些任务都将受益于 LLM agent 的信息搜索行为。
论文链接:
https://arxiv.org/abs/2503.21557
综述:大型推理模型的「高效推理」
DeepSeek-R1 和 OpenAI o1 等大型推理模型(LRM),通过在推理过程中增加思维链(CoT)推理的长度,实现了性能提升。然而,它们往往会产生过长的推理轨迹,其中往往充斥着冗余内容(如重复定义)、对简单问题的过度分析,以及对较难任务的多种推理路径的浅层次探索。这种低效率给训练、推理和实际部署(如在基于 agent 的系统中)带来了巨大挑战,因为在实际部署中,token 的经济性至关重要。
在这篇综述文章中,上海 AI Lab 团队概述了近期有关提高 LRM 推理效率的研究工作,并关注了在这种新范式下出现的独特挑战。他们找出了效率低下的常见模式,研究了在 LRM 生命周期(即从预训练到推理)中提出的方法,并讨论了未来有希望的研究方向。
论文链接:
https://arxiv.org/abs/2503.21614
GitHub 地址:
http://arxiv.org/pdf/2503.21614
AI 自动化软件工程的「挑战与路径」
在人工智能(AI)自动化软件工程充分发挥潜力之前,仍有许多挑战需要解决。实现高度自动化应该是有可能的,在这种情况下,人类可以专注于关键决策,即构建什么以及如何在困难的权衡中取得平衡,而大部分日常开发工作则可以自动完成。要达到这一自动化水平,需要学术界和工业界开展大量的研究和工程工作。
在这项工作中,来自加州大学伯克利分校和康奈尔大学的研究团队及其合作者,从三个方面探讨实现这一目标的进展。首先,他们提供了用于软件工程的人工智能(AI)中具体任务的结构化分类法,强调了软件工程中代码生成和完成之外的许多其他任务。其次,他们概述了限制当前方法的几个关键瓶颈。最后,他们提供了一份研究方向清单,希望能为这个迅速成熟的领域的未来研究带来启发。
论文链接:
https://arxiv.org/abs/2503.22625
字节 Seed:RLHF 性能扩展「混合奖励系统」
基于人类反馈的强化学习(RLHF)对于使大语言模型(LLM)与人类偏好保持一致至关重要。最近的研究主要集中在算法的改进上,而提示数据构建的重要性却被忽视了。
在这项工作中,字节跳动 Seed 团队通过探索 RLHF 性能扩展中数据驱动的瓶颈,特别是奖励黑客和响应多样性下降,填补了这一空白。他们提出了一种混合奖励系统,该系统结合了推理任务验证器(RTV)和生成式奖励模型(GenRM),以减少奖励黑客。他们还提出了一种新的提示选择方法——Pre-PPO,以保持响应多样性并提高学习效率。此外,他们还发现,在 RLHF 训练的早期阶段优先考虑数学和编码任务可以提高成绩。
两种模型规模的实验验证了这一方法的有效性和可扩展性:RTV 抵御奖励黑客攻击的效果相对更好,其次是带有 ground truth 的 GenRM,然后是带有 SFT Best-of-N 响应的 GenRM。这一策略能够快速捕捉特定任务的细微差别,从而提高 RLHF 的整体性能。这项工作强调了仔细构建数据的重要性,并提供了克服 RLHF 性能障碍的实用方法。
论文链接:
http://arxiv.org/abs/2503.22230
PHYSICS:「大学级物理问题解决」综合基准
在这项工作中,来自纽约大学和耶鲁大学的研究团队提出了一个用于大学级物理问题解决的综合基准——PHYSICS,其包含 1297 个专家标注问题,涵盖经典力学、量子力学、热力学和统计力学、电磁学、原子物理学和光学 6 个核心领域。每个问题都需要高级物理知识和数学推理。他们还开发了一个自动评估系统,以进行精确可靠的验证。
他们对主要基础模型的评估揭示了很大的局限性。即使是 SOTA 的 o3-mini 模型,其准确率也只有 59.9%,这凸显了解决高层次科学问题所面临的挑战。通过全面的误差分析、对不同提示策略的探索以及基于检索增强生成(RAG)的知识增强,他们确定了仍需改进的关键领域。
论文链接:
https://arxiv.org/abs/2503.21821
OThink-MR1:通过动态强化学习激发多模态泛化推理
多模态大语言模型(MLLM)能够处理多种输入数据类型,并在多种应用中生成连贯、与上下文相关的输出结果,因此受到了较多关注。虽然监督微调(SFT)一直是增强 MLLM 在特定任务优化中的能力的主要方法,但它在形成关键的通用推理能力方面往往存在不足。虽然强化学习(RL)有望克服这些局限性,但也面临两个挑战:(1)在多模态任务中的泛化能力在很大程度上仍未得到开发;(2)训练约束,包括恒定的库尔贝-莱布勒发散或钳位策略,往往会导致次优瓶颈。
为了应对这些挑战,来自 OPPO 的研究团队及其合作者提出了一个具有跨多模态任务深度理解和推理能力的 MLLM——OThink-MR1。具体来说,他们引入了具有动态库尔贝克-莱伯勒策略(GRPO-D)的组相对策略优化(Group Relative Policy Optimization),提高了强化学习(RL)的性能。对于 Qwen2-VL-2B-Instruct,GRPO-D 与 SFT 相比实现了 5.72% 以上的相对改进,而在两个适应数据集上的相同任务评估中,GRPO-D 与 GRPO 相比实现了 13.59% 以上的相对改进。此外,GRPO-D 还表现出了卓越的跨任务泛化能力,在跨任务评估中,GRPO-D 比 SFT 平均提高了 61.63% 以上。
这些结果表明,在一个多模态任务上使用 GRPO-D 训练的 MLLM 可以有效地迁移到另一个任务上,证明了 OThink-MR1 模型的泛化推理能力。
论文链接:
https://arxiv.org/abs/2503.16081