大模型日报|8 篇必读的大模型论文

在这里插入图片描述
大家好,今日必读的大模型论文来啦!

线性 MoE,下一代基础模型架构?

线性序列建模(LSM),如线性注意力、状态空间模型和线性 RNN,以及混合专家(MoE),最近作为架构的重大改进出现。

在这项工作中,来自上海 AI Lab 的研究团队及其合作者提出了线性 MoE(Linear-MoE),这是一个用于建模和训练大规模模型的生产级系统,它将 LSM 与 MoE 整合在一起,充分利用了用于线性复杂序列建模的 LSM 模块和用于稀疏激活的 MoE 层的优势,旨在提供高性能和高效率的训练。线性-MoE 系统包括:建模子系统,提供支持所有 LSM 实例的统一框架;以及训练子系统,通过结合各种并行技术,尤其是专为 Linear-MoE 模型设计的序列并行技术,促进高效训练。此外,他们还探索了混合模型,将 Linear-MoE 层与标准 Transformer-MoE 层及其序列并行性相结合,以进一步提高模型的灵活性和性能。

对 A0.3B-2B 和 A1B-7B 这两个模型系列的评估表明,Linear-MoE 在提高效率的同时,在各种基准测试中保持了具有竞争力的性能,展示了其作为下一代基础模型架构的潜力。

论文链接:
https://arxiv.org/abs/2503.05447
GitHub 地址:
https://github.com/OpenSparseLLMs/Linear-MoE

阿里 R1-Omni:基于强化学习的可解释全模态情感识别

在这项工作中,阿里通义实验室首次将“可验证奖励强化学习”(RLVR)应用于情感识别背景下的全模态大语言模型(Omni-multimodal LLM)。在情感识别任务中,视觉和听觉模态都发挥着至关重要的作用。

他们利用 RLVR 优化了 Omni 模型,显著提高了其在推理能力、情感识别准确性和泛化能力这三个关键方面的性能。RLVR 不仅提高了模型在分布内数据上的整体性能,而且在分布外数据集上也表现出了出色的鲁棒性。

更重要的是,改进后的推理能力能够清晰地分析不同模态(尤其是视觉和音频信息)在情绪识别过程中的作用。这为优化 MLLM 提供了宝贵的见解。

论文链接:
https://arxiv.org/abs/2503.05379

R1-Searcher:通过 RL 提高 LLM 搜索能力

现有的大型推理模型(LRM)显示了强化学习(RL)在增强大语言模型(LLM)复杂推理能力方面的潜力。虽然 LLM 在数学和编码等高难度任务中表现出色,但它们往往依赖内部知识来解决问题,这对于时间敏感型或知识密集型问题来说可能是不够的,从而导致不准确和幻觉。

为了解决这个问题,中国人民大学文继荣教授团队提出了 R1-Searcher,这是一种基于结果的两阶段 RL 方法,旨在提高 LLM 的搜索能力。这种方法允许 LLM 在推理过程中自主调用外部搜索系统来获取更多知识。这一框架完全依赖于 RL,不需要过程奖励或冷启动的提炼。他们的方法可以有效地泛化到领域外数据集,并同时支持基础模型和结构模型。

实验证明,这一方法优于之前的强 RAG 方法,即使在与闭源 GPT-4o-mini 相比时。

论文链接:
https://arxiv.org/abs/2503.05592
GitHub 地址:
https://github.com/SsmallSong/R1-Searcher

Mila 实验室提出「遗忘 Transformers」

遗忘门是现代递归序列模型的重要组成部分。虽然 Transformers 没有明确的递归形式,但 Mila 实验室团队认为,通过以数据为导向的方式降低非规范化注意力分数的权重,可以将遗忘门自然地纳入 Transformers 中。

他们将这种注意力机制命名为“遗忘注意力”,并将由此产生的模型命名为“遗忘 Transformers”(FoX)。研究表明,FoX 在长上下文语言建模、长度外推和短上下文下游任务上的表现优于 Transformer,而在长上下文下游任务上的表现与 Transformer 相当。此外,它与 FlashAttention 算法兼容,不需要任何位置嵌入。

包括“大海捞针”测试在内的多项分析表明,与 Mamba-2、HGRN2 和 DeltaNet 等递归序列模型相比,FoX 还保留了 Transformer 优越的长上下文能力。他们还引入了一种“专业”区块设计,它结合了递归序列模型中的一些常见架构组件,并发现它提高了 FoX 和 Transformer 的性能。

论文链接:
https://arxiv.org/abs/2503.02130
GitHub 地址:
https://github.com/zhixuan-lin/forgetting-transformer

不要 CoT,思维草图 SoT 节省 76% token

大语言模型(LLM)通过思维链(CoT)提示展示了不错的推理能力,但其代价往往是中间输出过于冗长,从而增加了计算开销。

在这项工作中,KAIST 团队提出了思维草图(SoT),这是一种新的提示框架,它将受认知启发的推理范式与语言约束相结合,在保持推理准确性的同时尽量减少 token 的使用。SoT 被设计成一个灵活的框架,可以纳入任何基于认知科学的自定义推理范式,他们将其实例化为三种范式——概念链、分块符号和专家词典——每种范式都针对不同的推理任务定制,并通过轻量级路由模型动态选择。

通过对 15 个多语言和多模态场景的推理数据集进行综合评估,他们证明 SoT 可以减少 76% 的 token,而不明显影响准确性。在某些领域(如数学和多跳推理),SoT 甚至能在大幅减少 token 使用量的同时提高准确性。

论文链接:
https://arxiv.org/abs/2503.05179
GitHub 地址:
https://github.com/SimonAytes/SoT

重现R1“顿悟时刻”:2B非SFT模型视觉推理

DeepSeek R1 展示了基于简单规则激励的强化学习如何在大语言模型(LLM)中实现复杂推理的自主发展,其特点是“顿悟时刻”(aha moment),即模型在训练过程中表现出自我反思并增加响应长度。然而,将这一成功经验推广到多模态推理的尝试往往无法再现这些特征。

在这项工作中,来自加州大学洛杉矶分校的研究团队及其合作者首次在非 SFT 2B 模型上成功复制了多模态推理的这些涌现特征。他们的模型从 Qwen2-VL-2B 开始,直接在 SAT 数据集上应用强化学习,在 CVBench 上实现了 59.47% 的准确率,比基础模型高出约 30%,比 SFT 设置高出约 2%。

此外,他们还分享了他们在尝试使用“指令模型 + RL”实现类似 R1 的推理过程中的失败尝试和见解,旨在阐明其中的挑战,主要观察结果包括(1)在指令模型上应用 RL 通常会产生琐碎的推理轨迹;(2)原生长度(naive length )奖励在激发推理能力方面效果不佳。

论文链接:
https://arxiv.org/abs/2503.05132
GitHub 地址:
https://github.com/turningpoint-ai/VisualThinker-R1-Zero

复旦、上海 AI Lab:首个用于多模态理解和生成的统一奖励模型

人类偏好对齐提高了多模态生成和理解能力。一个关键的方法是训练奖励模型来指导偏好优化。然而,现有的模型往往是针对特定任务的,这限制了它们在各种视觉应用中的适应性。同时,联合学习评估多个任务可能会产生协同效应,即改进图像理解可增强图像生成评估,而完善的图像评估可通过更好的帧分析使视频评估受益。

为此,来自复旦大学、上海 AI Lab 的研究团队提出了 UnifiedReward,它是首个用于多模态理解和生成评估的统一奖励模型,可实现成对排序和点对点评分,可用于视觉模型偏好对齐。具体来说,(1)他们首先在构建的大规模人类偏好数据集(包括图像和视频生成/理解任务)上开发了 UnifiedReward。(2)然后,利用 UnifiedReward 根据视觉模型自动构建高质量的偏好配对数据,并通过配对排序和点筛选对其输出进行逐步过滤。(3)最后,通过直接偏好优化(DPO)将这些数据用于偏好对齐。

实验结果表明,通过联合学习来评估不同的视觉任务,可以有效提高图像和视频理解/生成性能。

论文链接:
https://arxiv.org/abs/2503.05236
项目地址:
https://codegoat24.github.io/UnifiedReward/

李飞飞「具身智能」新作:全身操控综合框架 BRS

现实世界的家庭任务给移动操控机器人带来了巨大挑战。对现有机器人基准的分析表明,任务的成功执行取决于三个关键的全身控制能力:双臂协调、稳定且精确的导航和广泛的末端执行器可达性。实现这些能力需要精心的硬件设计,但由此产生的系统复杂性使视觉运动策略学习变得更加复杂。

为了应对这些挑战,AI 教母、斯坦福大学教授李飞飞团队推出了 BEHAVIOR Robot Suite(BRS),这是一个用于在各种家庭任务中进行全身操控的综合框架。BRS 基于一个具有 4-DoF 躯干的双足轮式机器人,集成了一个用于数据收集的经济高效的全身远程操作界面和一个用于学习全身视觉运动策略的新型算法。

他们在五项具有挑战性的家庭任务中对 BRS 进行了评估,这些任务不仅强调了三大核心能力,而且还引入了额外的复杂性,例如远距离导航、与铰接和可变形物体的交互以及在密闭空间中的操作。他们认为,BRS 的集成机器人体现、数据收集界面和学习框架,是朝着在日常家务中实现真实世界全身操控迈出的重要一步。

论文链接:
https://arxiv.org/abs/2503.05652
项目地址:
https://behavior-robot-suite.github.io/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值