
大模型论文阅读解析
文章平均质量分 91
持续分享前沿大模型的相关阅读解析记录
王哥儿聊AI
对大模型相关的论文进行阅读解析,欢迎大家多多交流投稿自己的工作
欢迎大家关注我的公众号:大模型论文研习社
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
阿里 & 小红书提出 MVP-RAG:融合双级检索与 LLM 生成,攻克电商商品属性识别三大核心难题
本文提出MVP-RAG框架,创新性地融合多级检索与生成技术,显著提升电商属性识别的准确率与泛化能力。实验表明,该方法在工业级数据集上F1值达92.1%,较基线模型提升15.8%,尤其对OOD属性识别率提升20%。该技术已成功部署于闲鱼平台,每日处理千万级商品属性提取任务,为电商AI领域提供了可复用的技术范式。原创 2025-10-05 20:19:59 · 647 阅读 · 0 评论 -
告别 “数据焦虑”!微软新方法 TPT:给文本加推理步骤,大模型训练数据效率提升 3 倍,多任务性能暴涨
本文介绍了一种简单且可扩展的方法,通过添加思维轨迹来增强现有的文本数据,从而提高大型语言模型(LLM)训练的数据效率。预训练LLM的计算需求正在以空前的速度增长,而高质量数据的可用性仍然有限。因此,最大化利用现有数据成为一个重要的研究挑战。主要障碍是,在固定的模型容量下,某些高质量的标记很难被学习,因为单个标记背后的推理可能异常复杂且深入。原创 2025-10-04 16:56:53 · 558 阅读 · 0 评论 -
告别人工出题!PromptCoT 2.0 让大模型自己造训练难题,7B 模型仅用合成数据碾压人工数据集效果!
摘要:PromptCoT 2.0——突破推理能力的数据瓶颈 大型语言模型(LLMs)在复杂推理任务上的表现受限于高质量训练数据的稀缺性。本文提出PromptCoT 2.0框架,通过冷启动初始化+EM优化循环的双轮驱动机制,实现了小模型在推理任务上的突破性表现。该方法包含: 冷启动模块:从开源问题库自动构建初始"问题-概念-推理路径"三元组,实现零人工标注的数据自启动 EM优化循环:通过"生成-筛选-强化"的迭代过程,使4B参数的小模型在代码生成任务上达到GPT-3.5原创 2025-10-03 09:20:52 · 1375 阅读 · 0 评论 -
CompLLM 来了:长文本 Q&A 效率革命,线性复杂度 + 缓存复用,推理速度与效果双丰收
CompLLM:突破长上下文处理瓶颈的智能压缩技术 斯坦福大学与Meta研究团队提出的CompLLM创新性地解决了LLM处理长文本的效率难题。通过将上下文分割为独立片段并压缩为Concept Embeddings(CEs),该技术实现了三大突破: 线性复杂度:压缩时间与上下文长度呈线性关系(传统方法为二次方) 动态扩展性:在1000 token上训练的模型可直接处理100000 token 片段级缓存:压缩结果可跨查询复用,减少重复计算 实验数据显示,CompLLM在128k token场景下使4B小模型的原创 2025-10-02 11:44:19 · 1256 阅读 · 0 评论 -
从 “瞎点” 到 “精准执行”:Recon-Act 破解长流程网页任务难题,性能碾压传统方案
近年来,多模态模型取得了显著进展,为智能浏览器代理的发展铺平了道路。然而,在解决现实世界网页上的多轮、长时域任务时,当前的代理仍然存在行动序列混乱以及在执行过程中过度试错的问题。本文介绍了 Recon-Act,这是一个基于侦察–行动(Reconnaissance–Action)行为范式、能够自我进化的多智能体框架。该系统包含侦察团队(Reconnaissance Team)和行动团队(Action Team):前者负责进行比较分析和工具生成,而后者则负责意图分解、工具编排和执行。原创 2025-10-01 08:50:28 · 729 阅读 · 0 评论 -
LLM 推理效率革命!SIM-CoT 让隐式思维链突破性能瓶颈,token 效率提 2.3 倍还更准
SIM-CoT:通过步骤级监督提升隐式推理链的稳定性与性能 摘要:本文提出SIM-CoT方法,通过引入步骤级监督解决隐式推理链(Implicit CoT)训练中的不稳定性问题。研究发现,现有隐式CoT方法在增加推理标记时会出现潜在表示同质化现象,导致训练崩溃。SIM-CoT创新性地采用辅助解码器将隐式标记与显式推理步骤对齐,在训练阶段提供精细监督,推理时保持隐式效率。实验表明,该方法在GPT-2上将Coconut性能提升8.2%,在LLaMA-3.1 8B上提升CODI性能3.0%,同时超越显式CoT基线2原创 2025-09-30 14:07:12 · 976 阅读 · 0 评论 -
阿里 + 南洋理工新突破!MMR1 模型破解多模态推理训练难题,开源160 万数据 + 15k RL 样本!
本文提出了一种方差感知采样(VAS)框架来提升多模态推理模型在数据稀缺场景下的性能。通过创新的方差促进分数(VPS)量化样本价值,结合动态采样策略,在仅数千样本的冷启动条件下将准确率提升15%。研究同时开源了160万条高质量推理链数据和端到端训练代码库。实验表明,7B规模的MMR1模型在数学推理基准测试中超越同量级SOTA模型12-18%,验证了VAS在提升数据效率方面的有效性。该工作为小样本多模态学习提供了新思路,相关资源已全面开源以促进社区发展。原创 2025-09-29 19:21:29 · 1093 阅读 · 0 评论 -
强化学习赋能预训练新突破:RLPT框架让大模型推理效率与精度双飞跃
摘要:本文提出RLPT(强化预训练),一种通过强化学习优化语言模型预训练的新方法。与依赖人工标注的传统强化学习不同,RLPT直接从预训练数据中学习,采用下一段推理目标作为奖励信号,使模型能够自主探索有意义的推理轨迹。实验表明,RLPT能显著提升模型性能,如Qwen3-4B-Base在多个基准测试中实现3.0-8.1的绝对提升。该方法不仅提高了数据效率,还展现出良好的扩展性,为小模型性能突破提供了新思路。 关键词:强化预训练、小语言模型、数学推理、生成式奖励、数据效率原创 2025-09-28 17:52:57 · 799 阅读 · 0 评论 -
R2U:通过过程监督优化文档改写,弥合 RAG 系统中检索相关性与生成效用差距
R2U模型性能与消融分析 实验结果表明,R2U在多个基准测试中展现出显著优势: 跨数据集性能: 在AmbigQA、HotpotQA、2Wiki和MuSiQue四个数据集上,R2U(3B参数)实现平均58.9%的F1分数,比传统方法提升44.7% 在2Wiki数据集上表现最佳(F1=67.3%),领先第二名近10个百分点 规模效率优势: 3B参数的R2U模型超越7B参数的RankZephyr(ACC 51.9% vs 50.7%) 8B规模的R2U(Llama)平均F1接近60,展示出优秀的扩展性 关键组件分原创 2025-09-27 20:20:11 · 788 阅读 · 0 评论 -
效率狂飙!LiteLong 让 LLM 长文本训练成本大砍 99%,BM25 + 多智能体辩论搞定 128K 数据合成
摘要:LiteLong提出资源高效的长上下文数据合成方法,通过结构化主题组织和多智能体辩论机制,显著降低计算成本。利用BISAC分类系统构建层级主题框架,结合BM25检索生成128Ktoken训练样本。实验显示,在HELMET和Ruler基准测试中表现优异,GPU消耗仅为传统方法1/5,为长文本处理提供新思路。(149字) 创新点: 多智能体辩论机制提升主题质量(性能+0.45分) BISAC分类系统实现精准主题导航(性能提升2.03%) 混合数据策略兼顾性能与成本(最优得分61.90) 实用价值: 使消费原创 2025-09-26 10:22:57 · 984 阅读 · 0 评论 -
Lynx:新一代个性化视频生成模型,单图即可生成视频,重新定义身份一致性与视觉质量
摘要:Lynx模型创新性地提出基于扩散Transformer(DiT)的个性化视频生成框架,通过双适配器架构解决了身份保真与动态生成的平衡难题。其核心创新包括:1)ID适配器将ArcFace面部特征转换为紧凑身份令牌;2)Ref适配器通过跨注意力机制注入细粒度VAE特征。实验表明,在800个测试案例的基准评估中,该模型在面部相似度(facexlib指标0.779)、提示词遵循度(0.722)和视频质量(0.956)等关键指标上均显著优于现有方法,推动了个性化视频生成向"高保真、强可控"方原创 2025-09-25 19:52:44 · 1195 阅读 · 0 评论 -
RAG 提效新思路!ClueAnchor 靠 “锚定关键线索” 破局,噪声文档也能稳提推理鲁棒性
**摘要:**ClueAnchor提出了一种创新的线索锚定框架,通过知识推理探索与优化解决传统RAG系统在噪声环境下易被误导的问题。该框架包含知识推理探索(KRE)和知识推理优化(KRO)双模块,能有效识别关键线索并选择最优推理路径。实验表明,ClueAnchor在10个QA数据集上平均准确率达58.37%,显著优于现有方法,并在噪声场景下展现出更强的鲁棒性。其核心创新在于线索锚定机制,使系统能精准聚焦相关证据,避免无关信息干扰。消融实验证实,线索锚定对性能提升贡献显著(准确率提升2.11%)。该研究为提升原创 2025-09-24 10:54:19 · 970 阅读 · 0 评论 -
别再手动搭多智能体了!MAS-GPT 让 LLM 自动生成适配系统,实现 “query→系统” 一步到位
MAS-GPT通过将多智能体系统的构建过程"学习化"自适应能力:不再需要人工设计智能体结构,模型自动适配问题类型效率革命:一次推理生成完整MAS,推理成本降低87.5%泛化突破:在域外任务上性能保持率达92%,远超专用模型。原创 2025-09-23 10:00:00 · 856 阅读 · 0 评论 -
腾讯开源 AudioStory!能生成 150 秒故事长音频,还会剧情拆解 + 自动配乐
论文摘要 本文提出AudioStory框架,解决了当前文本到音频生成在长叙事音频上的不足。通过将大语言模型与TTA系统结合,AudioStory能够生成结构化的长篇音频叙事,具有以下创新点: 提出解耦桥接机制,将LLM-扩散模型协作分为桥接查询(事件内语义对齐)和残差查询(事件间连贯性保持)两个专用组件 采用端到端训练框架,统一指令理解与音频生成,增强组件协同 构建AudioStory-10K基准数据集,覆盖动画声景、自然声叙事等多元领域 实验表明,AudioStory在单条音频生成和叙事音频生成任务上均优原创 2025-09-22 10:00:00 · 1557 阅读 · 0 评论 -
字节复刻的Mini-o3震撼登场!推理能力翻倍,视觉搜索效率飙升,交互轮次突破想象
最新的大型多模态模型已开始把「图像工具」与强化学习结合,来解决视觉任务。然而,现有开源方案往往推理套路单一、交互轮次受限,面对需要反复试错的高难题目就力不从心。原创 2025-09-21 09:49:05 · 1053 阅读 · 0 评论 -
蚂蚁集团DIVER登顶BRIGHT榜首,开源多阶段推理检索范式
检索增强型生成(Retrieval-augmented generation)在知识密集型任务中取得了很强的表现,这些任务中查询与文档的相关性可以通过直接的词汇或语义匹配来识别。然而,许多现实世界的查询涉及抽象推理、类比思维或多层次推理,现有的检索器常常难以捕捉到这些内容。为了解决这一挑战,原创 2025-09-20 20:28:42 · 1545 阅读 · 0 评论 -
大模型思维链揭秘:原来 LLM 靠这两招学会推理,长思考真能变聪明!
表层结构知识:通过上下文学习快速习得的推理步骤格式,表现为对特定连接词和句式的模仿深层逻辑知识:从预训练数据中习得的领域规则和推理模式,决定了推理的正确性散点图直观展示了推理动词数量与准确率的强相关性:在三个不同规模的模型(LLaMA3-8B、Gemma2-9B、Gemma2-27B)上,推理动词数量与准确率均呈现正相关,证实深层逻辑知识对推理性能的关键作用。原创 2025-09-19 13:54:15 · 822 阅读 · 0 评论 -
告别“答非所问”!港科大&Meta发布KERAG,让大模型知识问答准确率飙升21%
检索增强生成(RAG)通过引入外部数据来缓解大模型的“幻觉”问题,其中知识图谱(KG)为问答系统提供了关键信息。原创 2025-09-15 10:00:00 · 1119 阅读 · 0 评论 -
无需额外模型,大语言模型自学“纠错”:GSR框架拿下5大数学基准SOTA!
为了进一步增强大语言模型(LLM)解决复杂、多步推理问题的能力,测试时缩放(TTS)方法已受到广泛关注。现有方法(如 Best-of-N 和多数投票)受限于候选回答的质量——当所有候选都错误时,它们也无法给出正确解;而引入额外模型来挑选最佳回答则会显著增加部署成本。原创 2025-09-13 09:46:32 · 864 阅读 · 0 评论 -
别再卷传统 RAG 了!蚂蚁集团甩出 HIRAG:拆出过滤、整合、推理三层架构,性能显著提升!
传统RAG系统主要依赖大语言模型自身的上下文内学习(ICL)能力,然而,目前仍缺乏对RAG生成模型所需具体能力的深入研究,导致文档质量不一致和检索系统不完善等问题。核心要点:HIRAG(Hierarchical-Thought Instruction-Tuning Retrieval-Augmented Generation)通过三级递进能力(过滤、组合、推理)解决传统RAG仅关注信息检索而忽视有效利用的痛点,在小规模模型上实现媲美甚至超越大模型的复杂问答性能。原创 2025-09-12 10:00:00 · 683 阅读 · 0 评论 -
抛弃纯RL!清华&阿里开源CARFT刷新LLM推理上限:性能涨10%,训练省30%
摘要:推理能力在大语言模型(LLM)的广泛应用中起着至关重要的作用。尽管这些方法效果显著,但仍存在两大局限:第一,普通 RL 方法忽视了已标注的思维链(CoT),并引入不稳定的推理路径采样,往往导致模型崩溃、训练过程不稳定以及性能次优;核心要点:CARFT(对比注释反馈微调)通过引入对比学习机制和高质量注释链,在数学推理任务上实现了比传统SFT和ReFT方法更高的准确率和稳定性,尤其在Qwen2.5-7B-Instruct模型上平均准确率提升至86.16%,同时保持合理的训练成本。原创 2025-09-07 12:35:26 · 313 阅读 · 0 评论 -
ReasonRank 自动合成推理数据 + 两阶段训练 + 多视角奖励,性能碾压传统Ranker模型
基于大型语言模型(LLM)的列表式排序在众多段落排序任务中展现出卓越性能 随着大型推理模型(Large Reasoning Models)的发展,多项研究表明,测试阶段的逐步推理有助于提升列表式排序性能。然而,由于推理密集型训练数据的稀缺性,现有重排序模型在许多复杂排序场景中表现欠佳,且推理密集型重排序模型的排序能力仍有极大的开发空间。原创 2025-09-07 10:00:00 · 1938 阅读 · 0 评论 -
大模型不再被假信息带偏!CARE 框架让 RAG 学会 “辨真假“,性能提升 5% 还不丢通用能力
检索增强生成(RAG)通过把外部知识注入大模型的输入提示,显著提升其能力。然而,当检索到的上下文与大模型的参数知识相矛盾时,模型往往无法调和错误外部信息与正确内部记忆之间的冲突,这被称为“上下文-记忆冲突”。欢迎大家关注我的公众号:大模型论文研习社(http://weixin.qq.com/r/mp/sBBsdDvEGWZmrX8X90Wi)往期回顾:大模型也会 “脑补” 了!原创 2025-09-05 19:28:58 · 994 阅读 · 0 评论 -
RL 大模型逆袭!搞定真实软件工程任务,成功率从 20% 飙到 39%,无需教师模型蒸馏
当前,把强化学习(RL)用在大型语言模型(LLM)上的研究大多还停在“单回合”任务——比如做一道数学题或一次性生成一段代码。这类任务虽然也能被包装成多回合的马尔可夫决策过程,但本质上环境几乎不给任何中间反馈,属于最“退化”的多轮交互。然而,像软件工程(SWE)这样的真实场景,需要与“有状态”的环境进行丰富的多轮交互:每执行一步,环境都会给出复杂且信息量不小的回应。原创 2025-09-03 19:43:49 · 952 阅读 · 0 评论 -
RAG老丢记忆?RFM-RAG给大模型加“外挂硬盘”,多轮问答一次记住不再翻车
大语言模型(LLM)在各类任务中表现亮眼,却受限于两大硬伤:参数知识有限、重训成本高昂。检索增强生成(RAG)通过检索外部知识来弥补模型内部空白,但在多轮对话中常出现信息丢失、冗余检索,且难以精准刻画复杂任务的知识缺口。原创 2025-08-31 10:30:00 · 1050 阅读 · 0 评论 -
DAEDAL:动态调整生成长度,让大语言模型推理效率提升30%的新方法
扩散式大语言模型(DLLMs)正迅速崛起,成为当前主流自回归大模型的有力替代方案:它们支持高效的并行生成,并具备全局上下文建模能力。然而,DLLMs 在实际应用中遇到一个关键架构限制:必须在推理前。这种固定长度分配带来两难:长度不足会削弱复杂任务表现,长度过长则浪费算力、甚至降低性能。虽然推理框架僵化,但我们发现 DLLM 内部其实蕴含能指示“最佳回答长度”的潜在信号。为此,我们提出——一种的新型去噪策略,实现 DLLM 的。DAEDAL 分两步: 1) 去噪开始前,先以极短长度起步,依据序列完成度指标。原创 2025-08-30 13:13:03 · 805 阅读 · 0 评论 -
大模型别再 “瞎琢磨” 了!美团新方法VSRM让推理效率飙升,还不丢正确率
大型推理模型(LRM)在复杂推理任务上近期取得了显著进展,主要得益于可验证奖励的强化学习。然而,LRM 往往存在“过度思考”问题:在简单问题上耗费过多计算,降低整体效率。现有高效推理方法通常需要准确评估任务难度,以预设 token 预算或选择推理模式,这限制了它们的灵活性与可靠性。本文重新思考过度思考的本质,发现关键在于鼓励有效步骤、惩罚无效步骤。原创 2025-08-23 10:46:22 · 897 阅读 · 0 评论 -
只用一行代码,碾压SFT:东南大学等团队提出DFT,让大模型数学能力暴涨5倍
我们提出了一种简单且具理论依据的改进方法——动态微调(DFT),以解决大语言模型监督微调(SFT)在泛化能力上逊于强化学习(RL)的问题。原创 2025-08-23 10:40:09 · 843 阅读 · 0 评论 -
仅改动 0.006% 参数,大模型安全防护能力竟暴跌 16 倍!
大型语言模型(LLMs)在多种语言任务上取得了最先进的性能,但其安全防护机制可能会被绕过,从而导致有害内容的生成。鉴于此,近期关于安全机制的研究逐渐兴起,揭示了当安全表示或组件被抑制时,LLMs的安全能力会受到损害。然而,现有研究往往忽视了多头注意力机制对安全的影响,尽管它在模型的各种功能中起着关键作用。因此,本文旨在探索标准注意力机制与安全能力之间的联系,填补安全相关机制可解释性方面的空白。原创 2025-08-16 22:22:06 · 576 阅读 · 0 评论 -
大模型自己出题自己练,推理能力飙升!Meta 新方法 CoT-Self-Instruct 碾压人类数据
我们提出了CoT-Self-Instruct,这是一种合成数据生成方法,它指导大型语言模型(LLMs)首先基于给定的种子任务通过基于思维链(Chain-of-Thought,简称CoT)进行推理和规划,然后生成质量与复杂度类似的新的合成提示,用于LLM训练,随后通过自动指标筛选出高质量的数据。在可验证推理方面,我们的合成数据在MATH500、AMC23、AIME24和GPQA-Diamond等任务上显著优于现有的训练数据集,例如s1k和OpenMathReasoning。原创 2025-08-15 10:00:00 · 1299 阅读 · 0 评论 -
SynAdapt:通过合成连续思维链实现大语言模型的自适应推理
尽管链式思维(CoT)推理能提升模型性能,却因离散 CoT 标记(DCoT)的生成而带来显著时间开销。连续 CoT(CCoT)是更高效的替代方案,但现有方法受限于间接微调、对齐不足或目标不一致。原创 2025-08-12 16:35:24 · 1016 阅读 · 0 评论 -
PrismRAG:让RAG在干扰环境中保持5.4%事实性提升的双引擎框架
检索增强生成(RAG)在面对含混半相关文档或需深度理解与推理的问题时常表现不佳。原创 2025-08-09 13:51:44 · 973 阅读 · 0 评论 -
段落注入(Passage Injection):让RAG系统在噪声中保持清醒的推理能力
检索增强生成(RAG)已广泛应用于为大型语言模型(LLM)引入外部知识,以应对知识密集型任务。然而,检索到的段落中往往存在噪声(即低质量内容),严重削弱了 RAG 的效果。提升 LLM 对这种噪声的鲁棒性,对于增强 RAG 系统的可靠性至关重要。近期研究赋予 LLM 强大的推理与自我反思能力,使其能够发现并纠正推理过程中的错误。原创 2025-08-04 19:31:33 · 944 阅读 · 0 评论 -
MOTIF:基于RL微调实现模块化思维,让LLM以15%样本量在数学推理任务中提升3.8%准确率
近期在大语言模型(LLM)推理能力方面的进展表明,采用群体相对策略优化(GRPO)算法进行强化学习(RL)训练,能够让模型在生成回答时使用更多思考/推理 token,从而显著提升响应质量。然而,LLM 在生成 token 的同时仍需保持对先前 token 的注意力,因此只能生成有限数量的 token。这一限制,亦即 LLM 的上下文长度,成为使用大量 token 进行推理的瓶颈。为了突破上下文长度的限制,LLM 必须采用模块化思考策略,在多个回合中进行推理。原创 2025-08-02 20:32:28 · 818 阅读 · 0 评论 -
混合嵌入与置信度增强:新一代RAG技术如何提升LLM性能
随着大语言模型(LLM)在各领域产生深远影响,如何让模型实时融入最新信息或注入外部知识以构建领域专属模型,已成为研究热点。检索增强生成(RAG)凭借低成本、轻调参的优势,成为一种典型的“推理时扩展”方案。然而,由于训练数据与模型架构的差异,RAG 中使用的各类嵌入模型在不同场景下表现参差不齐,导致相似度计算结果各异,进而影响 LLM 的回答质量。原创 2025-08-02 12:00:00 · 814 阅读 · 0 评论 -
RLVER:让7B模型情商飙升5倍,比肩GPT-4o的情感能力
腾讯混元团队提出的RLVER框架首次实现了基于可验证情感奖励的强化学习,将Qwen2.5-7B模型的共情能力从13.3分提升至79.2分(Sentient-Benchmark),性能比肩GPT-4o和Gemini 2.5 Pro等顶级商用模型,同时保持数学和代码能力不衰退。原创 2025-08-01 12:00:00 · 596 阅读 · 0 评论 -
ROLL:大规模强化学习优化的高效可扩展库详解
阿里巴巴团队推出的ROLL(Reinforcement Learning Optimization for Large-scale Learning)库,通过创新的分布式执行架构与模块化设计,实现了大规模强化学习训练的效率跃升、无缝扩展与极致易用性,为技术先驱、产品开发者和算法研究者提供了一站式解决方案。原创 2025-07-31 21:28:41 · 1033 阅读 · 0 评论 -
强化学习新发现:仅需更新5%参数的稀疏子网络可达到全模型更新效果
强化学习(RL)微调大语言模型时,仅更新模型中5-30%的参数形成稀疏子网络,且该子网络在不同随机种子、数据集和算法下具有高度一致性,独立训练即可达到全模型性能。原创 2025-07-26 11:23:08 · 861 阅读 · 0 评论 -
RLVR的枷锁:深度分析强化学习为何难破基础模型局限
近期在大型推理模型方面的进展突出了“可验证奖励的强化学习(Reinforcement Learning with Verifiable Rewards,RLVR)”作为一种提升人工智能能力的有前景的方法,尤其是在解决复杂逻辑任务方面。然而,目前尚不清楚 RLVR 是否真正扩展了模型的推理边界,还是仅仅放大了基础模型已经知晓的高奖励输出,以提高精确度。本研究通过理论和实证调查,原创 2025-07-25 13:45:21 · 373 阅读 · 0 评论 -
SPARKLE:深度剖析强化学习如何提升语言模型推理能力
强化学习(Reinforcement Learning,RL)已经成为赋予语言模型高级推理能力的主导范式。尽管基于 RL 的训练方法(例如 GRPO)已经展示了显著的经验性收益,但对其优势的细致理解仍然不足。为了填补这一空白,我们引入了一个细粒度的分析框架,以剖析 RL 对推理的影响。我们的框架特别研究了被认为可以从 RL 训练中受益的关键要素:(1)计划遵循和执行,(2)问题分解,以及(3)改进的推理和知识利用。原创 2025-07-19 21:19:42 · 810 阅读 · 0 评论