大家好,今日必读的大模型论文来啦!
港中文、港大团队提出「生成思维链」GoT
目前的图像生成和编辑方法主要是将文本提示作为直接输入进行处理,而不对视觉构成和显式操作进行推理。
来自香港中文大学、香港大学的研究团队及其合作者提出了“生成思维链”(Generation Chain-of-Thought,GoT),其在输出图像之前通过明确的语言推理过程实现生成和编辑。GoT 将传统的文本到图像的生成和编辑转化为一个以推理为导向的框架,可以分析语义关系和空间排列。他们定义了 GoT 的表述并构建了大规模 GoT 数据集,其中包含超过 900 万个样本和捕捉语义空间关系的详细推理链。为了充分利用 GoT 的优势,他们实施了一个统一的框架,该框架将用于推理链生成的 Qwen2.5-VL 与端到端扩散模型集成在一起,并通过语义-空间引导模块进行了增强。
实验表明,与基线相比,GoT 框架在生成和编辑任务上都取得了更好的性能。此外,GoT 还实现了交互式视觉生成,允许用户明确修改推理步骤,以精确调整图像。GoT 为推理驱动的视觉生成和编辑开辟了一个新方向,生成的图像更符合人类的意图。
论文链接:
https://arxiv.org/abs/2503.10639
GitHub 地址:
https://github.com/rongyaofang/GoT
复旦提出「双偏好优化」世界建模学习框架
大型视觉语言模型(LVLM)有望应用于机器人任务规划,但在依赖性约束和效率等基本挑战方面仍有困难。现有的方法要么只优化行动选择,要么在推理过程中利用世界模型,忽视了学习世界建模作为提高规划能力的方法的好处。
在这项工作中,来自复旦大学的研究团队及其合作者提出了一种新的学习框架——双偏好优化(Dual Preference Optimization,D^2PO),其通过偏好学习来联合优化状态预测和行动选择,使 LVLM 能够理解环境动态,从而更好地进行规划。为了在无需人工标注的情况下自动收集轨迹和逐步偏好数据,他们引入了树搜索机制,通过试错进行广泛探索。
在 VoTa-Bench 上进行的大量实验表明,当他们基于 D^2PO 方法应用于 Qwen2-VL (7B)、LLaVA-1.6 (7B) 和 LLaMA-3.2 (11B) 时,其性能优于现有方法和 GPT-4o,以更高效的执行路径实现了更高的任务成功率。
论文链接:
https://arxiv.org/abs/2503.10480
西湖大学、中科院:视觉自回归模型 ARPG
来自西湖大学和中国科学院的研究团队提出了一种新的视觉自回归模型——ARPG,其可以随机并行生成,解决了传统 raster-order 方法的固有局限性,即因其顺序的、预定义的 token 生成顺序而阻碍了推理效率和零样本泛化。
他们的主要见解是,有效的随机顺序建模需要明确的指导来确定下一个预测 token 的位置。为此,他们提出了一个新的引导解码框架,将位置引导与内容表征解耦,将它们分别编码为查询和键值对。通过将这种引导直接纳入因果注意力机制,这一方法实现了完全随机顺序的训练和生成,消除了对双向注意力的需求。因此,ARPG 很容易推广到图像内绘、外绘和分辨率扩展等零样本任务中。此外,这一方法还支持并行推理,利用共享 KV 缓存并发处理多个查询。
在 ImageNet-1K 256 基准上,这一方法仅用 64 个采样步骤就实现了 1.94 的 FID,吞吐量提高了 20 多倍,同时与类似规模的代表性自回归模型相比,内存消耗减少了 75% 以上。
论文链接:
https://arxiv.org/abs/2503.10568
GitHub 地址:
https://github.com/hp-l33/ARPG
杨立昆、何恺明:无需归一化的 Transformers
归一化层在现代神经网络中无处不在,一直被认为是必不可少的。由图灵奖得主、纽约大学教授、Meta 首席 AI 科学家杨立昆(Yann LeCun)领导的研究表明,无需归一化的 Transformers,也可以通过一种非常简单的技术实现相同或更好的性能。
他们提出了动态 Tanh (DyT),即元素向运算 DyT(x)=tanh(αx), 作为 Transformers 中归一化层的直接替代。DyT 的灵感来自于这样一个观察结果,即 Transformers 中的层归一化通常会产生类似 tanh 的 S 型输入输出映射。加入 DyT 后,没有归一化的 Transformers 在大多数情况下无需调整超参数,就能达到或超过归一化对应层的性能。
他们在从识别到生成、从监督学习到自我监督学习、从计算机视觉到语言模型等不同环境中验证了带有 DyT 的 Transformers 的有效性。这些发现挑战了现代神经网络中归一化层不可缺少的传统认识,并为它们在深度网络中的作用提供了新见解。
论文链接:
https://arxiv.org/abs/2503.10622
项目地址:
https://jiachenzhu.github.io/DyT/
Block diffusion:语言建模新 SOTA,序列任意长
与自回归模型相比,扩散(Diffusion)语言模型具有并行生成的潜力和可控性,因而具有独特的优势,但在似然建模方面却落后于前者,而且仅限于固定长度生成。
在这项工作中,来自康奈尔科技校区(Cornell Tech)的研究团队及其合作者提出了一类在离散去噪扩散模型和自回归模型之间插值的块扩散(Block diffusion)语言模型。通过支持灵活的长度生成,并利用 KV 缓存和并行 token 采样提高推理效率,Block diffusion 克服了两种方法的主要局限性。他们提出了建立有效的 Block diffusion 模型的方法,其中包括高效的训练算法、梯度方差估计器和数据驱动的噪声调度,以最小化方差。
在语言建模基准上,Block diffusion 在扩散模型中创造了新 SOTA,并能生成任意长度的序列。
论文链接:
https://arxiv.org/abs/2503.09573
项目地址:
https://m-arriola.com/bd3lms/
元强化微调:让「测试时计算」更有效
训练模型有效地利用测试时计算,对于提高大语言模型(LLM)的推理性能至关重要。目前的方法大多通过对搜索轨迹进行微调或以 0/1 结果奖励运行 RL 来实现这一目标,但这些方法是否能有效利用测试时计算?随着预算的增加,这些方法还能继续扩展吗?
在这项工作中,来自卡内基梅隆大学和 Hugging Face 的研究团队将优化测试时计算的问题形式化为一个元强化学习(RL)问题,从而使他们能够将 LLM 的长输出流视为由测试时运行的若干事件组成,并引导他们使用输出 token 的累积遗憾概念来衡量测试时计算的效率。与 RL 算法如何在训练过程中对探索和利用进行最佳权衡类似,最小化累积遗憾也能在 token 流的探索和利用之间实现平衡。虽然他们证明了 SOTA 模型并不能使遗憾最小化,但他们可以通过最大化密集奖励奖金和结果 0/1 奖励 RL 来做到这一点。这种奖励是输出流中每个后续区块取得的“进步”,通过最终成功可能性的变化来量化。
利用这些见解,他们开发了元强化微调(MRT),这是一种用于优化测试时计算的微调方法,可以将测试时计算能力提高 2-3 倍。
论文链接:
https://arxiv.org/abs/2503.07572
项目地址:
https://cohenqu.github.io/mrt.github.io/
华师大、小红书团队:用RL激活MLLM推理
DeepSeek-R1-Zero 展示了大语言模型(LLM)纯粹通过强化学习(RL)产生的推理能力。受这一突破的启发,来自华东师范大学和小红书的研究团队探索了如何利用 RL 来增强 MLLM 的推理能力。然而,由于缺乏大量高质量的多模态推理数据,直接使用 RL 进行训练很难激活 MLLM 的复杂推理能力,如提问和反思。
为此,他们提出了推理 MLLM,即 Vision-R1,以提高多模态推理能力。具体来说,他们首先利用现有的 MLLM 和 DeepSeek-R1,通过模态桥接和数据过滤,构建了一个无人工注释的高质量多模态 CoT 数据集,从而获得了一个 20 万的多模态 CoT 数据集,即 Vision-R1-cold 数据集,这是 Vision-R1 的冷启动初始化数据。为了缓解冷启动后过度思考带来的优化挑战,他们提出了渐进式思维抑制训练(PTST)策略,并采用带有硬格式化结果奖励函数的组相对策略优化(GRPO),在 10K 多模态数学数据集上逐步完善模型学习正确复杂推理过程的能力。
综合实验表明,在各种多模态数学推理基准测试中,他们的模型平均提高了 6%。在广泛使用的 MathVista 基准上,Vision-R1-7B 的准确率达到了 73.5%,仅比 LEA 的准确率低 0.4%。
论文链接:
https://arxiv.org/abs/2503.06749
GitHub 地址:
https://github.com/Osilly/Vision-R1