最近能明显感觉到大模型发展日新月异,一周不追踪业内最新动态,自己的知识储备就已经落后了,以后会不定期将最近最新的一些热点论文进行汇总,内容涵盖论文大纲+创新点总结+实验效果,旨在快速了解最新的技术,会对其中重要的论文另外展开详细解读。
1. QWENLONG-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning
继Qwen3之后,阿里又发布了QwenLong-L1,上篇文章详细解读了Qwen3的技术报告。下面再来看看QwenLong-L1的技术报告都说了哪些重要内容。
近期,大型推理模型(LRMs)通过强化学习(RL)展现出了强大的推理能力,这些提升主要体现在短语境推理任务中。然而,通过强化学习将大型推理模型扩展至有效处理和推理长语境输入仍是一项尚未解决的关键挑战。为了填补这一空白,我们首先正式定义了长语境推理强化学习的范式,并识别出其在训练效率低下和优化过程不稳定方面的关键挑战。为解决这些问题,我们提出了QWENLONG-L1框架,该框架通过渐进式语境扩展策略,使短语境大型推理模型适应长语境场景。具体而言,我们利用预热监督微调(SFT)阶段来建立稳健的初始策略,随后采用课程引导的分阶段强化学习技术来稳定策略进化,并通过难度感知回溯采样策略来激励策略探索。在七个长语境文档问答基准上的实验表明,QWENLONG-L1-32B模型性能超越了OpenAI-o3-mini和Qwen3-235B-A22B等旗舰大型推理模型,达到了与Claude-3.7-Sonnet-Thinking相当的水平,展现了在当前最先进大型推理模型中的领先性能。这项工作推动了实用长语境大型推理模型的发展,使其能够在信息密集型环境中进行稳健推理。
模型/框架结构
论文大纲
创新点总结
该论文的主要创新点集中在长语境推理强化学习(RL)框架的设计与实现,以及通过实验验证其在长语境场景下的有效性,具体如下:
一、提出长语境推理RL范式并明确关键挑战
1. 首次形式化长语境推理RL框架
定义长语境推理RL需解决的核心问题:模型需从长语境输入中检索相关信息并生成推理链,而非依赖内部参数知识(区别于短语境RL)。
2. 识别长语境RL的独特挑战
训练效率低下:奖励收敛慢、输出熵降低导致探索不足。
优化过程不稳定:KL散度波动大,输入长度差异导致策略更新方差放大。
二、QWENLONG-L1框架:渐进式语境扩展策略
通过三阶段设计实现从短语境到长语境的稳定迁移:
1. 预热监督微调(SFT)阶段
使用教师模型蒸馏的高质量数据(5.3K样本)训练初始策略,确保模型具备基础语境理解和推理链生成能力。
目标:通过负对数似然损失初始化稳健策略,为RL提供可靠起点。
2. 课程引导分阶段RL(Curriculum-Guided Phased RL)
将训练划分为多阶段,逐步增加输入长度(如从20K到60K tokens),每阶段仅处理特定长度区间的输入。
作用:通过分阶段适应避免长语境直接训练的不稳定性,稳定策略进化。
3. 难度感知回溯采样(Difficulty-Aware Retrospective Sampling)
根据难度评分(群体奖励均值的倒数)采样历史阶段的高难度样本,激励模型探索复杂场景。
公式:`diff(x, c) = 1 / mean({r_i})`,低奖励样本被优先采样以维持高熵探索。
三、混合奖励机制平衡精确性与多样性
1. 规则验证(Rule-Based Verification)
通过正则表达式提取答案并与黄金答案精确匹配,确保推理结果的精确性。 - 公式:`r_rule(y) = I(y_ans == y_gold)`,其中`I`为指示函数。
2. LLM裁判(LLM-as-a-Judge)
使用小型LLM(如Qwen2.5-1.5B)评估生成答案与黄金答案的语义等价性,缓解规则验证的假阴性问题。
提示模板引导裁判判断答案语义一致性,输出二进制评分。
3. 组合奖励
取规则验证与LLM裁判的最大值作为最终奖励:`r_φ(x, y) = max(r_rule(y), r_LLM(x, y))`,平衡精确性与召回率。
四、实验验证与性能突破
1. 首个长语境RL专用数据集
构建DOCQA-RL-1.6K数据集,包含数学、逻辑、多跳推理等长语境问答样本,平均输入长度11.4K tokens。
2. 超越主流模型的长语境推理能力
QWENLONG-L1-32B 在7个基准测试中平均准确率达70.7%,超越OpenAI-o3-mini、Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking性能相当。
14B版本 优于Gemini-2.0-Flash-Thinking和Qwen3-32B,证明模型规模与RL结合的有效性。
3. 消融实验验证关键组件
SFT预热:提升初始化稳定性,奖励收敛速度提高30%。
课程RL:KL散度波动减少40%,熵值维持在较高水平以促进探索。
回溯采样:困难样本处理准确率提升5.1%,验证其对复杂推理的必要性。
五、长语境推理行为的理论发现
1. RL驱动推理行为进化
通过DeepSeek-V3分析发现,RL训练显著增加长语境接地(Grounding)、子目标设定(Subgoal Setting)、回溯(Backtracking)等关键行为,而SFT仅模仿表面模式,无法转化为性能提升。
2. SFT与RL的互补性
SFT是经济的性能提升方式(计算成本低),但RL是实现最优性能的必要手段;过度依赖SFT会导致模型陷入局部最优,限制推理能力上限。
实验效果
论文链接:https://arxiv.org/pdf/2505.17667
2. Chain-of-Model Learning for Language Model
本文提出了一种新颖的学习范式,称为“模型链”(Chain-of-Model, CoM)。该范式将因果关系以链式结构融入每层的隐藏状态,从而在模型训练中引入高效的规模扩展能力,并在部署中实现推理灵活性。引入了“表示链”(Chain-of-Representation, CoR)的概念,将每层的隐藏状态表示为隐藏维度层面多个子表示(即“链”)的组合。在每层中,输出表示中的每个链只能访问输入表示中所有先前的链。因此,基于CoM框架构建的模型可以通过在现有模型(即链)基础上增加链的数量来逐步扩大模型规模,并通过使用不同的链数提供多种不同规模的子模型以实现弹性推理。 基于这一原理,设计了“语言模型链”(Chain-of-Language-Model, CoLM),将CoM的思想融入Transformer架构的每一层。在CoLM的基础上,我们进一步引入了KV共享机制,提出CoLM-Air,该机制在第一条链中计算所有的键(key)和值(value),然后在所有链中共享。这种设计展现了额外的可扩展性,例如支持无缝的语言模型切换、预填充加速等。实验结果表明,CoLM系列模型可以达到与标准Transformer相当的性能,同时实现更高的灵活性,如通过渐进式扩展提高训练效率,并为弹性推理提供多种不同规模的模型,为构建语言模型开辟了新途径。
模型/框架结构
论文大纲
创新点总结
这篇论文提出的Chain-of-Model (CoM)框架通过链式结构重新定义了语言模型的表示和训练方式,核心创新点体现在多尺度表示建模、渐进式扩展机制和弹性推理能力三大方面,具体如下:
一、新型表示与模型结构:链状表示(CoR)与模型链(CoM)
1. 链状表示(Chain-of-Representation, CoR)
将每层隐藏状态分解为多个子表示链(Chains),每个链对应不同的知识尺度(Scale)。例如,一个包含3条链的表示可编码3种不同复杂度的特征,通过激活前i条链实现多尺度信息提取。
特性:单表示集成多尺度能力,避免传统模型依赖单一尺度的局限性。
2. 链状模型(Chain-of-Model, CoM)
要求每层(如线性层、注意力层)均遵循**因果性**:输出链i仅依赖输入链1到i,确保信息从简单到复杂逐步累积。
优势:
- 渐进式扩展:基于现有链逐步增加新链,避免从头训练(如以LLaMA-1B为第一链,新增链扩展至1.9B参数)。
- 多子模型集成:一个模型包含多个不同规模的子模型(如单链0.33B、双链0.86B),支持弹性推理。
二、Transformer架构的链式改造:CoLM与CoLM-Air
1. 语言模型链(CoLM)
将CoM融入Transformer各层:
-
线性层(Chain-of-Linear):拆分为多个子线性层,每个链对应独立权重块,支持块稀疏核加速计算。
-
注意力模块(Chain-of-Attention):为每条链分配独立头数,确保单头仅处理单链信息,避免跨链干扰。
-
前馈网络(FFN):替换为链式结构,与注意力模块链设置一致,维持多尺度特征变换。
2. KV共享机制与CoLM-Air
创新设计:仅在第一条链计算键(K)和值(V),其余链共享相同KV,避免重复计算。
核心优势:
-
预填充加速:长上下文场景下(如1M tokens),预填充速度比标准Transformer快1.6–3倍,结合MInference可达27倍加速。
-
无缝模型切换:不同规模子模型共享KV缓存,支持动态切换推理配置(如从1B到8B模型)。
三、训练与推理的弹性能力
1. 多尺度训练与损失函数
提出多链交叉熵损失:为每个尺度(链数)独立设置分类头,支持联合优化多尺度子模型。
实验验证:在GLUE基准上,通过冻结前链并微调后链(Chain Tuning),仅调整42%参数即可提升性能,兼容LoRA等高效微调技术。
2. 渐进式扩展与增量学习
链扩展(Chain Expansion):以预训练模型为第一链,新增链通过零初始化或迁移学习增量训练,保留历史知识。例如,TinyLLaMA-v1.1扩展后平均准确率提升0.92,LLaMA-3.2-1B提升0.14。
避免灾难性遗忘:通过因果性约束,新链学习不破坏前链能力,支持模型持续进化。
论文链接:https://arxiv.org/pdf/2505.11820
3. Table-R1: Inference-Time Scaling for Table Reasoning
这项工作首次探索了表格推理任务中的推理时间扩展研究。开发并评估了两种用于实现推理时间扩展的训练后策略:前沿模型推理轨迹蒸馏和可验证奖励强化学习(RLVR)。对于蒸馏方法,我们引入了由DeepSeek-R1生成的大规模推理轨迹数据集,用于将LLM微调为Table-R1-SFT模型。对于RLVR,我们提出了任务特定的可验证奖励函数,并应用GRPO算法获得Table-R1-Zero模型。在多种表格推理任务上评估了Table-R1系列模型,包括短格式QA、事实验证和自由格式QA。值得注意的是,Table-R1-Zero模型仅使用70亿参数的LLM,性能达到或超过GPT-4.1和DeepSeek-R1,同时对域外数据集表现出强泛化能力。广泛的消融和定性分析揭示了指令微调、模型架构选择和跨任务泛化的优势,以及RL训练中基本表格推理技能的涌现。
模型/框架结构
论文大纲
创新点总结
该论文针对表格推理任务的推理时间扩展问题,提出以下核心创新点:
1. 首次探索表格推理的推理时间扩展(Inference-Time Scaling)
背景:现有推理型大模型在文本任务中通过推理时间扩展(如生成推理链)提升性能,但表格推理因结构依赖性(如单元格语义理解、跨列数据对齐、数值运算)及长结构输入处理需求,相关研究尚属空白。
创新价值:首次将推理时间扩展范式引入表格推理,为结构化数据推理提供新方向。
2. 提出两种训练后策略:蒸馏与可验证奖励强化学习(RLVR)
(1)前沿模型推理轨迹蒸馏(Distillation)
方法:利用DeepSeek-R1生成33,601条高质量推理轨迹(包含逐步推理过程和答案),通过监督微调训练出Table-R1-SFT模型。
创新价值:构建首个表格推理专用推理轨迹数据集,通过模仿前沿模型的链式思维(CoT)提升小模型推理能力。
(2)可验证奖励强化学习(RLVR)
算法:采用Group Relative Policy Optimization(GRPO)算法,结合Token级损失计算和非对称裁剪,提升训练稳定性。
奖励设计:
-
准确性奖励:针对不同任务设计度量标准(如短答案QA用Exact Match,自由格式QA用BLEU/ROUGE-L)。
-
格式奖励:通过正则表达式强制模型输出结构化JSON格式(如包含{"answer": ...}),提升结果可验证性。
-
创新价值:首次为表格推理设计任务敏感的可验证奖励体系,引导模型生成逻辑清晰、格式规范的推理结果。
3. 轻量级模型实现性能突破
Table-R1-Zero模型:基于7B参数的Qwen2.5-7B,在13个表格推理基准(如WTQ、TabFact、FeTaQA)上性能超越GPT-4.1 mini、DeepSeek-R1-Distill-7B等模型,甚至媲美32B参数的Qwen3系列。
泛化能力:在域外数据集(如FinQA、Feverous)上表现显著优于监督微调模型,证明RLVR方法的跨领域鲁棒性。
4. 揭示表格推理关键能力的涌现机制
定性分析:通过训练动态观察发现,RLVR使模型逐步掌握**列感知推理**(精准定位表格列)、**多步数值计算**(如求和、百分比计算)和**语义对齐能力**(解析复杂查询与表格结构的映射)。
消融实验:
-
指令微调:显著提升训练稳定性和准确性,Instruct模型比Base模型准确率平均高5-8%。
-
格式奖励:移除后导致域外性能下降10-15%,证明结构化输出对泛化至关重要。
5. 构建首个多任务表格推理基准套件
数据集覆盖:整合13个数据集,涵盖短答案QA、事实验证、自由格式QA三大任务类型,包含数值推理、时间序列分析等复杂场景。
评估体系:结合Exact Match、BLEU/ROUGE-L等指标,并引入GPT-4.1 mini进行语义等价性重评估,确保结果可靠性。
实验效果
论文链接:https://arxiv.org/pdf/2505.23621
4. Shifting AI Efficiency From Model-Centric to Data-Centric Compression
大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的快速发展,历来依赖于以模型为中心的扩展——通过将参数规模从数百万增加到数百亿来推动性能提升。然而,随着模型规模接近硬件限制,主要的计算瓶颈已从根本上转向长token序列的自注意力二次成本,这一挑战因超长文本上下文、高分辨率图像和扩展视频的出现而加剧。本论文提出高效AI的研究重点正从以模型为中心的压缩转向以数据为中心的压缩。将token压缩定位为新的前沿方向,通过在模型训练或推理过程中减少token数量来提升AI效率。通过全面分析,首先考察了不同领域中长期上下文AI的最新进展,并为现有模型效率策略建立了统一的数学框架,论证了为何token压缩是解决长上下文开销的关键范式转变。随后系统回顾了token压缩的研究现状,分析其基本优势并识别其在不同场景中的显著优势。此外还深入分析了当前token压缩研究面临的挑战,并勾勒出有前景的未来发展方向。
模型/框架结构
论文大纲
创新点总结
该论文的核心创新点围绕AI效率优化范式的转变和Token压缩技术的系统性构建,具体如下:
1. 提出AI效率研究的范式转变:从模型中心到数据中心压缩
背景突破:指出随着LLMs/MLLMs参数增长接近硬件极限,计算瓶颈已从模型规模(参数数量)转向长Token序列的自注意力二次成本(如超长文本、高分辨率图像/视频处理)。
核心主张:强调需从“以模型为中心的压缩”(如量化、剪枝)转向“以数据为中心的压缩”,即通过Token压缩直接减少输入数据的Token冗余,而非依赖模型架构调整或参数缩减。
2. 定义Token压缩为新一代效率优化框架
技术定位:Token压缩是一种数据中心压缩方法,通过减少训练或推理阶段的Token数量降低计算开销,且无需修改模型架构或重新训练,具有通用性、高效性、兼容性三大优势。
数学框架:建立统一公式描述Token压缩流程,包括压缩标准(Scoring Criteria)和压缩策略(Compression Strategies):
-
压缩标准:通过参数化方法(如辅助网络学习Token重要性)或非参数化方法(如基于注意力权重、余弦相似性的启发式评分)识别冗余Token。
-
压缩策略:
-
Token剪枝:按阈值删除低重要性Token(如保留Top-K重要Token)。
-
Token合并:将语义相似的Token加权聚合,减少序列长度同时保留信息。
3. 揭示Token压缩在多场景中的关键优势
训练阶段:
-
数据增强与筛选:通过Token混合(如图像/文本Token融合)提升数据多样性,或过滤低质量Token以优化训练效率。
-
计算加速:Token长度从n压缩至m时,自注意力计算成本从O(n^2d)降至(O(m^2d),内存占用线性减少(m/n)。
推理阶段:
-
实时性能优化:通过KV缓存压缩(如仅计算首链KV并共享)减少内存占用,适配自动驾驶、实时交互系统等场景。
-
跨模态泛化:在语言(复杂推理)、视觉(图像理解)、视频(长序列处理)等领域均验证有效性,例如随机Token剪枝在数学推理任务中优于传统注意力评分方法。
实验效果
论文链接:https://arxiv.org/pdf/2505.19147
5. Absolute Zero: Reinforced Self-play Reasoning with Zero Data
基于可验证奖励的强化学习(RLVR)已显示出通过直接从基于结果的奖励中学习来增强大型语言模型推理能力的潜力。最近在“零设置”下运行的RLVR研究虽然避免了对推理过程标注的监督,但仍依赖手动策划的问答集合进行训练。高质量人工示例的稀缺性引发了对依赖人工监督的长期可扩展性的担忧,这一挑战在语言模型预训练领域已显而易见。此外,在假设的AI超越人类智能的未来,人类提供的任务可能对超级智能系统的学习潜力有限。为解决这些问题,我们提出了一种新的RLVR范式——Absolute Zero,其中单一模型学习提出最大化自身学习进度的任务,并通过解决这些任务来改进推理,而无需依赖任何外部数据。在此范式下,我们引入了Absolute Zero推理器(AZR),该系统通过代码执行器验证所提出的代码推理任务并验证答案,将其作为可验证奖励的统一来源,以指导开放式但有根据的学习,从而实现训练课程和推理能力的自我进化。尽管完全在无外部数据的情况下训练,AZR在编码和数学推理任务上仍实现了整体SOTA性能,超越了依赖数万领域内人工策划示例的现有零设置模型。此外,我们证明了AZR可有效应用于不同模型规模,并与各种模型类别兼容。
模型/框架结构
论文大纲
创新点总结
这篇论文的主要创新点包括:
1. 提出Absolute Zero范式:首次实现完全不依赖外部数据的推理模型自进化,模型同时作为任务提议者和解决者,通过自博弈生成任务并利用代码执行器验证奖励,解决了传统RLVR依赖人工标注数据的扩展性瓶颈。
2. 设计Absolute Zero推理器(AZR):通过演绎、归纳、溯因三种推理任务类型,结合代码执行环境提供可验证反馈,使模型在无数据情况下自主优化推理能力。奖励机制设计包括基于任务难度的提议者奖励和基于正确性的解决者奖励,并引入格式惩罚确保输出有效性。
3. 无数据训练的性能突破:AZR在编码和数学推理任务上超越依赖数万人工数据的零设置模型,实现SOTA性能,且跨模型规模(3B-14B)有效,证明了自生成任务的学习潜力。
4. 揭示推理行为与泛化能力:训练中观察到模型自然生成类似ReAct的中间注释,展现规划能力;编码任务训练显著提升数学推理泛化性(平均+10.9%),且模型规模越大性能提升越显著(14B模型提升+13.2%)。
5. 提出新的研究方向:指出模型在无数据场景下的安全风险(如偶现不可控推理链),并建议未来探索模型-数据联合优化、多模态扩展及安全对齐机制,为自主学习的AGI提供了新路径。
实验效果
论文链接:https://arxiv.org/pdf/2505.03335