- 博客(165)
- 资源 (1)
- 收藏
- 关注
原创 RL 的 token 选择之争:高熵词到底重不重要?
有的研究认为 RL 时要重点训高熵 token(激发探索),有的则认为要避开它们(干扰优化),关键是双方的实验都能涨点。作者提出 “相对惊喜度” 指标来同时刻画 token 的不确定性与梯度影响,发现这一争论并非矛盾,而是互补:通过 RSI 筛选概率适中的区间,同时获取双方优势,实现更好效果
2026-07-05 20:42:44
118
原创 京东提出 DOPD:在线蒸馏时谨防教师打小抄
On-policy 蒸馏的天花板受限于教师质量,给教师提供额外信息看似能提高上限,但会引发特权幻觉:把信息不对称误当成可迁移能力。DOPD 通过特权优势差距将 token 分为四种角色,分别施以不同强度、来源和目标的蒸馏信号,恢复了 90% 的师生差距,某些场景上甚至让学生超越教师
2026-07-02 20:42:11
610
原创 06-30 · LLM 最新论文速览
今日候选池 100 篇,硬过滤 + LLM 打分后通过评估 27 篇,精选 Top-10,另列 17 篇速览
2026-07-01 11:45:19
229
原创 上海人工智能实验室:35B 模型追平 GPT、kimi 等万亿参数模型
把训练数据做细,构造大规模、高质量、跨领域的长程轨迹样本数据,Agents-A1 利用多领域 OPD 让 35B MoE 模型达到与顶级万亿参数模型相当的水平
2026-07-01 00:07:36
543
原创 DART:采样两份草稿估计思考预算,节省 67% token 效果还更好
混合推理模型可以直接回答问题,也可以深度思考后再作答,但实际应用时到底该选那种?现有方案一般让用户选择,或者额外训练路由器,DART 的做法却是极度的简单有效:先采两份 nothink 草稿,根据他俩的一致性判断是否需要思考,再利用熵来推测思考预算,不仅节省了 5.7× token,效果甚至还比 always-thinking 更好
2026-06-29 22:36:54
497
原创 斯坦福大学提出 SPIRAL:让 RL 训练不再是单打独斗
推理模型的训练与测试经常存在脱节:训练时只顾优化单条推理轨迹,但测试时常使用各种 test-time scale 方法,采样多条轨迹后总结成最终答案。作者提出用集合强化学习训练搜索链、标准强化学习训练聚合链的联合框架,在 Qwen3-4B 上实现了 11 倍的并行扩展效率和 15% 的聚合性能提升
2026-06-26 21:57:14
323
原创 千问团队提出面向 agent 的语言世界模型
教 AI “理解世界怎么运转”,比直接教它 “怎么行动” 更能提升行动力。千问团队训练了覆盖七个领域的语言世界模型,既能作为独立模拟器给 Agent 提供可控训练环境,又能作为 Agent 预热阶段直接提升多轮任务表现
2026-06-25 22:08:54
586
原创 06-23~24 · LLM 论文合辑
今日候选池 193 篇,硬过滤 + LLM 打分后通过评估 18 篇,精选 Top-10,另列 8 篇速览
2026-06-24 21:33:11
209
原创 RODS:agentic RL 利用奖励信号在线合成训练数据
多轮工具调用 agent 的训练数据成本昂贵,传统方案难以合成高质量的可用数据。RODS 利用 GRPO 训练时的奖励信号挑选种子样本,搭建模拟环境构造高质量合成数据,只用 400 条种子样本就达到了 17K 的离线大规模合成数据水平
2026-06-24 21:00:53
325
原创 小米提出 harnessX:自动进化的 agent 外壳
现有 harness 自进化方案难以泛化,实践中主要还是靠工程师手搓自迭代流程。HarnessX 通过结构化、可替换的执行器搭建 agent,利用跨 harness 版本的 GRPO 实现框架与模型协同进化,在五个基准上平均提升 14.5%,最高 44%
2026-06-18 21:58:02
762
原创 06-16 · LLM 最新论文速览
今日候选池 101 篇,硬过滤 + LLM 打分后通过评估 15 篇,精选 Top-10,另列 5 篇速览。
2026-06-16 19:41:22
217
原创 DyCon:动态控制推理模型的思考强度
现有方法解决 LLM 过度思考问题时,都没有考虑推理过程中难度的实时变化。DyCon 通过一个线性回归器就准确地估计出了实时难度,训练简单有效且泛化性极强;再据此实现简单题少想、难题多想,让推理效率最高提升 52% ,准确率还上涨
2026-06-16 18:21:36
467
原创 TRUST:RL 时保留模型的不确定性,效果提升 8%
强化学习训练智能体的工具决策时,正确和错误决策都被训得同样自信,不确定性的区分能力被"抹平"了。TRUST 把不确定性量化直接写进奖励,当成一股排斥力,推开对错决策,让 4B 模型追平 Claude Sonnet 4
2026-06-15 20:52:58
718
原创 小红书提出 RedKnot:分头处理 kv 缓存,延时降低 60%效果还提升
现有的 PIC 方案(位置无关 KV 缓存复用)实际加速效果并不明显,RedKnot 在注意力头粒度上复用和重算缓存,配合分层稀疏 FFN 和 SegPagedAttention,在答案质量不降的前提下,把首 token 延迟最高压到原来的约 1/3.5
2026-06-10 21:20:05
545
原创 EoM:用哈耶克的市场经济理论开发智能体,效果惊人
通过拍卖、交易和基于财富的选择,无需中央控制,就能诱导出了专业化和协调机制。这暗示了一条完全与主流不同的路径 —— 与其费力设计单个智能体或协调机制,不如设计一套激励结构,让协调、分工、合作在其中自动浮现
2026-06-08 21:07:44
691
原创 UnityMAS-O:专用于多 agent 工作流训练的 RL 框架
现有 RL 框架(verl、OpenRLHF 等)本质上还是面向具体的策略模型做优化,工作流编排被当作环境搭建的一部分,使得每个多智能体系统都需要手工编排,训练难度较大,不同系统也难以做公平比较。UnityMAS-O 实现了一套真正面向多智能体工作流的训练流程,支持自定义的角色设置、模型拓扑结构,在多种任务和实验设置下都拿到了显著提升
2026-06-04 22:27:39
407
原创 06-02 · LLM 最新论文速览
今日候选池 105 篇,硬过滤 + LLM 打分后通过评估 18 篇,精选 Top-10,另列 8 篇速览。
2026-06-02 23:44:12
330
原创 PIPO:把 token 成对打包,推理速度翻四倍效果还提升
大模型推理加速方案可分为输入侧压缩和输出侧投机解码,但像 PIPO 一样同时把两者接到一个 backbone 上的方案不多。通过复用 OPD 训练时有现成的 teacher-student 分布,省去了昂贵的 draft verifier
2026-06-02 23:19:13
466
原创 大模型也需要睡眠:让模型 “休息一下“ 把记忆整理好再回答
SSM 混合架构的大模型瓶颈并不是状态空间的容量,而是写入信息时的计算量。本文提出类似 "生物睡眠" 的巩固机制:在 KV cache 被清除前,对当前窗口做 n 遍前向传播来更新状态空间,实现在不增加推理延迟的前提下,提高深度推理能力
2026-05-30 20:58:24
336
原创 SkillOpt:把 skill 文档当成模型权重来训练
现有 Agent Skill 要么手写、要么由 LLM 一次性生成或者无约束自修改,SkillOpt 把技能文档视为可训练的外部状态,用有界编辑 + 验证门控 + 拒绝缓冲 + 慢速更新构成完整的文本空间优化器,在 52 个评测格子上达到全部最优
2026-05-30 20:57:41
420
原创 围绕日志设计 Agent:轻松实现逻辑分叉、情景重放与信息溯源
传统 agent 框架把日志当副产品,ActiveGraph 反过来把日志视作 agent 本身:把日志投影成图谱获取事件的结构化表达,并以此开发各类型的行为函数,最终实现了一个可溯源、可回放、可逻辑分叉的 agent 系统
2026-05-28 11:37:38
552
原创 SPD:不靠外部信号做自蒸馏,左脚踩右脚提效16%
现有自蒸馏方法要么依赖外部信号(验证器、奖励模型),要么无法跨领域泛化。SPD 证明只需从模型自身梯度中提取低秩能力子空间、投影 KV 激活来引导自生成,就能在代码、数学、QA 三个领域实现无外部信号的跨域泛化提升(最高 +16%)
2026-05-27 12:07:21
655
几个jar包:org.com、fastjson、httpclient、httpcore、jetty-util
2019-07-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅