大模型日报｜5 篇必读的大模型论文-CSDN博客

本文链接：https://blog.csdn.net/AMiner2006/article/details/146253042

在这里插入图片描述
大家好，今日必读的大模型论文来啦！

语言模型 + 扩散模型 = 最好的视频生成？

文本到视频（T2V）生成技术由两种相互竞争的范式——自回归语言模型和扩散模型——推动。然而，每种范式都有其内在的局限性：语言模型在视觉质量和误差积累方面表现较差，而扩散模型则缺乏语义理解和因果建模。

在这项工作中，来自浙江大学和月之暗面的研究团队提出了一个混合框架 LanDiff，它通过从粗到细的生成，协同了两种范式的优势。这一架构具备三项关键创新：（1）语义 tokenizer，通过高效的语义压缩将三维视觉特征压缩为紧凑的一维离散表示，实现了大约 14000 倍的压缩率；（2）语言模型，生成具有高级语义关系的语义 token；（3）流扩散模型，将粗语义细化为高保真视频。

实验表明，5B 模型 LanDiff 在 VBench T2V 基准测试中取得了 85.43 的高分，超过了 SOTA 开源模型 Hunyuan Video (13B) 和其他商业模型，如 Sora、Keling 和 Hailuo。此外，这一模型在长视频生成方面也达到了 SOTA，超过了该领域的其他开源模型。

论文链接：
https://arxiv.org/abs/2503.04606
项目地址：
https://landiff.github.io/

英伟达团队：多模态 LLM 的 token 高效长视频理解

基于视频的多模态大语言模型（Video-LLMs）将视频作为图像帧序列进行处理，大大提高了视频理解能力。然而，许多现有方法都是在视觉骨干中独立处理帧，缺乏明确的时间建模，这限制了它们捕捉动态模式和有效处理长视频的能力。

为了解决这些局限性，来自英伟达的研究团队及其合作者提出了 STORM，这是一种新颖的架构，在图像编码器和大语言模型之间集成了一个专用的时间编码器。他们的时序编码器利用 Mamba 状态空间模型将时序信息整合到图像 token 中，生成丰富的表示，从而在整个视频序列中保持帧间动态。这种丰富的编码不仅增强了视频推理能力，还实现了有效的 token 缩减策略，包括测试时采样和基于训练的时空池化，从而在不牺牲关键时间信息的情况下大幅降低了对大语言模型的计算要求。通过整合这些技术，这一方法在提高性能的同时减少了训练和推理延迟，从而在扩展的时间范围内实现高效、鲁棒的视频理解。

广泛的评估表明，STORM 在各种长视频理解基准测试中都取得了 SOTA（在 MLVU 和 LongVideoBench 上提高了 5% 以上），同时在输入帧数固定的情况下，计算成本降低了 8 倍，解码延迟降低了 2.4-2.9 倍。

论文链接：
https://arxiv.org/abs/2503.04130
项目地址：
https://research.nvidia.com/labs/lpr/storm/

PokéChamp：专家级最小语言 agent

在这项工作中，普林斯顿大学团队提出了一种由大语言模型（LLM）驱动的用于 Pok’emon 对战的最小智能体 Pok’eChamp。Pok’eChamp 基于双人竞技游戏的通用框架，利用大语言模型的通用能力来增强最小树搜索。具体来说，大语言模型取代了三个关键模块：玩家行动采样、对手建模和价值函数估计，使智能体能够有效利用游戏历史和人类知识来缩小搜索空间并解决部分可观测性问题。

值得注意的是，这一框架不需要额外的大语言模型训练。他们在流行的 Gen 9 OU 格式中对 Pok’eChamp 进行了评估。当采用 GPT-4o 时，它与现有基于大语言模型的最佳机器人的胜率达到了 76%，与基于规则的最强机器人的胜率达到了 84%，这证明了它的卓越性能。即使使用开源的 80 亿参数 Llama 3.1 模型，Pok’eChamp 也能以 64% 的胜率持续超越之前最好的基于大语言模型的机器人，即由 GPT-4o 支持的 Pok’ellmon。Pok’eChamp 在 Pok’emon Showdown 在线天梯中的预计 Elo 值为 1300-1500，跻身人类玩家的前 30%-10% 之列。

此外，这项研究还汇编了最大的真实玩家 Pok’emon 对战数据集，其中包含 300 多万场比赛，包括 50 多万场高 Elo 比赛。在此数据集的基础上，他们建立了一系列战斗基准和谜题，以评估特定的战斗技能。他们还进一步提供了本地游戏引擎的关键更新。他们希望这项工作能促进进一步的研究，利用 Pok’emon 对战作为基准，将大语言模型技术与解决通用多智能体问题的游戏理论算法结合起来。

论文链接：
https://arxiv.org/abs/2503.04094
项目地址：
https://sites.google.com/view/pokechamp-llm

中国科大、阿里团队：自学习大型推理模型

大型推理模型（LRM），如 OpenAI o1 和 DeepSeek-R1，通过利用较长的思维链（CoT），在复杂推理任务中展现了非凡的能力。然而，这些模型由于仅依赖于内部推理过程，往往存在幻觉和效率低下的问题。

在这项工作中，来自中国科学技术大学和阿里的研究团队提出了 START（Self-Taught Reasoner with Tools），这是一种新颖的工具集成长 CoT 推理大语言模型，它通过利用外部工具显著增强了推理能力。通过代码执行，START 能够执行复杂计算、进行自我检查、探索各种方法并进行自我调试，从而解决了 LRM 的局限性。START 的核心创新在于其自学习框架，其中包括两项关键技术：1）Hint-infer：他们证明，在 LRM 的推理过程中插入人工设计的提示（例如 “等等，也许在这里使用 Python 是个好主意”），能有效激发其利用外部工具的能力，而无需任何演示数据。Hint-infer 也可以作为一种简单有效的顺序测试时扩展方法；2）Hint-RFT：将 Hint-infer 和 RFT 结合在一起，通过 Hint-infer 对 LRM 生成的推理轨迹和工具调用进行评分、过滤和修改，然后对 LRM 进行微调。通过这一框架，他们对 QwQ-32B 模型进行了微调，从而实现了 START。

在博士级科学问答（GPQA）、竞赛级数学基准（AMC23、AIME24、AIME25）和竞赛级代码基准（LiveCodeBench）上，START 的准确率分别达到了 63.6%、95.0%、66.7%、47.1% 和 47.3%。它的性能明显优于 base QwQ-32B，并可与 SOTA 开放重量模型 R1-Distill-Qwen-32B 和专有模型 o1-Preview 相媲美。

论文链接：
https://arxiv.org/abs/2503.04625

南大、微软团队：基于过程的自我奖励

人类标注的偏好数据被用于训练大语言模型（LLM），以提高其性能，但受到人类能力水平的限制。因此，有人提出了自我奖励方法，即 LLM 通过奖励自己的输出来生成训练数据。然而，现有的自我奖励范式在数学推理场景中并不有效，甚至可能导致性能下降。

在这项工作中，来自南京大学、微软亚洲研究院的研究团队及其合作者为语言模型提出了基于过程的自我奖励（Process-based Self-Rewarding）管道，其在自我奖励范式中加入了长思维推理、分步“LLM 即法官”和分步偏好优化。这一新范式通过基于过程的自我奖励迭代，成功提高了 LLM 在多个数学推理基准上的性能，展示了自我奖励在实现 LLM 推理方面的潜力，其推理能力可能超越人类。

论文链接：
http://arxiv.org/abs/2503.03746