大模型最新论文-CSDN博客

混合推理模型可以直接回答问题，也可以深度思考后再作答，但实际应用时到底该选那种？现有方案一般让用户选择，或者额外训练路由器，DART 的做法却是极度的简单有效：先采两份 nothink 草稿，根据他俩的一致性判断是否需要思考，再利用熵来推测思考预算，不仅节省了 5.7× token，效果甚至还比 always-thinking 更好

2026-06-29 22:36:54 497

原创 06-26 · LLM 最新论文速览

今日候选池 88 篇，硬过滤 + LLM 打分后通过评估 23 篇，精选 Top-10，另列 13 篇速览

2026-06-26 22:39:23 245

原创斯坦福大学提出 SPIRAL：让 RL 训练不再是单打独斗

推理模型的训练与测试经常存在脱节：训练时只顾优化单条推理轨迹，但测试时常使用各种 test-time scale 方法，采样多条轨迹后总结成最终答案。作者提出用集合强化学习训练搜索链、标准强化学习训练聚合链的联合框架，在 Qwen3-4B 上实现了 11 倍的并行扩展效率和 15% 的聚合性能提升

2026-06-26 21:57:14 323

原创千问团队提出面向 agent 的语言世界模型

教 AI “理解世界怎么运转”，比直接教它 “怎么行动” 更能提升行动力。千问团队训练了覆盖七个领域的语言世界模型，既能作为独立模拟器给 Agent 提供可控训练环境，又能作为 Agent 预热阶段直接提升多轮任务表现

2026-06-25 22:08:54 586

原创 06-23~24 · LLM 论文合辑

今日候选池 193 篇，硬过滤 + LLM 打分后通过评估 18 篇，精选 Top-10，另列 8 篇速览

2026-06-24 21:33:11 209

原创 RODS：agentic RL 利用奖励信号在线合成训练数据

多轮工具调用 agent 的训练数据成本昂贵，传统方案难以合成高质量的可用数据。RODS 利用 GRPO 训练时的奖励信号挑选种子样本，搭建模拟环境构造高质量合成数据，只用 400 条种子样本就达到了 17K 的离线大规模合成数据水平

2026-06-24 21:00:53 325

原创 06-18 · LLM 最新论文速览

今日候选池 84 篇，硬过滤 + LLM 打分后通过评估 14 篇，精选 Top-10，另列 4 篇速览

2026-06-18 22:00:03 238

原创小米提出 harnessX：自动进化的 agent 外壳

现有 harness 自进化方案难以泛化，实践中主要还是靠工程师手搓自迭代流程。HarnessX 通过结构化、可替换的执行器搭建 agent，利用跨 harness 版本的 GRPO 实现框架与模型协同进化，在五个基准上平均提升 14.5%，最高 44%

2026-06-18 21:58:02 762

原创 06-17 · LLM 最新论文速览

今日候选池 85 篇，硬过滤 + LLM 打分后通过评估 11 篇，精选 Top-10，另列 1 篇速览

2026-06-17 22:28:54 248

原创 06-16 · LLM 最新论文速览

今日候选池 101 篇，硬过滤 + LLM 打分后通过评估 15 篇，精选 Top-10，另列 5 篇速览。

2026-06-16 19:41:22 217

原创 DyCon：动态控制推理模型的思考强度

现有方法解决 LLM 过度思考问题时，都没有考虑推理过程中难度的实时变化。DyCon 通过一个线性回归器就准确地估计出了实时难度，训练简单有效且泛化性极强；再据此实现简单题少想、难题多想，让推理效率最高提升 52% ，准确率还上涨

2026-06-16 18:21:36 467

原创 06-15 · LLM 最新论文速览

今日候选池 89 篇，硬过滤 + LLM 打分后通过评估 7 篇

2026-06-15 20:56:38 224

原创 TRUST：RL 时保留模型的不确定性，效果提升 8%

强化学习训练智能体的工具决策时，正确和错误决策都被训得同样自信，不确定性的区分能力被"抹平"了。TRUST 把不确定性量化直接写进奖励，当成一股排斥力，推开对错决策，让 4B 模型追平 Claude Sonnet 4

2026-06-15 20:52:58 718

原创 06-11 · LLM 最新论文速览

今日候选池 82 篇，硬过滤 + LLM 打分后通过评估 11 篇，精选 Top-10，另列 1 篇速览

2026-06-11 20:17:50 262

原创 06-10 · LLM 最新论文速览

今日候选池 89 篇，硬过滤 + LLM 打分后通过评估 7 篇。

2026-06-10 21:28:18 214

原创小红书提出 RedKnot：分头处理 kv 缓存，延时降低 60%效果还提升

现有的 PIC 方案（位置无关 KV 缓存复用）实际加速效果并不明显，RedKnot 在注意力头粒度上复用和重算缓存，配合分层稀疏 FFN 和 SegPagedAttention，在答案质量不降的前提下，把首 token 延迟最高压到原来的约 1/3.5

2026-06-10 21:20:05 545

原创 06-09 · LLM 最新论文速览

今日候选池 115 篇，硬过滤 + LLM 打分后通过评估 11 篇，精选 Top-10，另列 1 篇速览

2026-06-09 21:21:58 228

原创 06-08 · LLM 最新论文速览

今日候选池 86 篇，硬过滤 + LLM 打分后通过评估 12 篇，精选 Top-10，另列 2 篇速览

2026-06-08 21:20:29 254

原创 EoM：用哈耶克的市场经济理论开发智能体，效果惊人

通过拍卖、交易和基于财富的选择，无需中央控制，就能诱导出了专业化和协调机制。这暗示了一条完全与主流不同的路径 —— 与其费力设计单个智能体或协调机制，不如设计一套激励结构，让协调、分工、合作在其中自动浮现

2026-06-08 21:07:44 691

原创 StreamMA：把流式输出应用到多智能体系统

每产出一个推理步骤就立刻转发下游，形成流水线并行，结果不仅更快，推理质量还更高

2026-06-06 20:23:45 969

原创 06-05 · LLM 最新论文速览

今日候选池 86 篇，硬过滤 + LLM 打分后通过评估 14 篇，精选 Top-10，另列 4 篇速览。

2026-06-05 22:56:56 299

原创 06-04 · LLM 最新论文速览

今日候选池 89 篇，硬过滤 + LLM 打分后通过评估 13 篇，精选 Top-10，另列 3 篇速览

2026-06-04 22:30:49 271

原创 UnityMAS-O：专用于多 agent 工作流训练的 RL 框架

现有 RL 框架（verl、OpenRLHF 等）本质上还是面向具体的策略模型做优化，工作流编排被当作环境搭建的一部分，使得每个多智能体系统都需要手工编排，训练难度较大，不同系统也难以做公平比较。UnityMAS-O 实现了一套真正面向多智能体工作流的训练流程，支持自定义的角色设置、模型拓扑结构，在多种任务和实验设置下都拿到了显著提升

2026-06-04 22:27:39 407