自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(165)
  • 资源 (1)
  • 收藏
  • 关注

原创 07-02 · LLM 最新论文速览

今日候选池 86 篇,硬过滤 + LLM 打分后通过评估 20 篇,精选 Top-10,另列 10 篇速览

2026-07-05 20:43:25 47

原创 RL 的 token 选择之争:高熵词到底重不重要?

有的研究认为 RL 时要重点训高熵 token(激发探索),有的则认为要避开它们(干扰优化),关键是双方的实验都能涨点。作者提出 “相对惊喜度” 指标来同时刻画 token 的不确定性与梯度影响,发现这一争论并非矛盾,而是互补:通过 RSI 筛选概率适中的区间,同时获取双方优势,实现更好效果

2026-07-05 20:42:44 118

原创 07-01 · LLM 最新论文速览

今日候选池 96 篇,硬过滤 + LLM 打分后通过评估 17 篇,精选 Top-10,另列 7 篇速览

2026-07-02 20:52:54 235

原创 京东提出 DOPD:在线蒸馏时谨防教师打小抄

On-policy 蒸馏的天花板受限于教师质量,给教师提供额外信息看似能提高上限,但会引发特权幻觉:把信息不对称误当成可迁移能力。DOPD 通过特权优势差距将 token 分为四种角色,分别施以不同强度、来源和目标的蒸馏信号,恢复了 90% 的师生差距,某些场景上甚至让学生超越教师

2026-07-02 20:42:11 610

原创 06-30 · LLM 最新论文速览

今日候选池 100 篇,硬过滤 + LLM 打分后通过评估 27 篇,精选 Top-10,另列 17 篇速览

2026-07-01 11:45:19 229

原创 上海人工智能实验室:35B 模型追平 GPT、kimi 等万亿参数模型

把训练数据做细,构造大规模、高质量、跨领域的长程轨迹样本数据,Agents-A1 利用多领域 OPD 让 35B MoE 模型达到与顶级万亿参数模型相当的水平

2026-07-01 00:07:36 543

原创 06-29 · LLM 最新论文速览

今日候选池 86 篇,硬过滤 + LLM 打分后通过评估 19 篇,精选 Top-10,另列 9 篇速览

2026-06-29 22:38:06 212

原创 DART:采样两份草稿估计思考预算,节省 67% token 效果还更好

混合推理模型可以直接回答问题,也可以深度思考后再作答,但实际应用时到底该选那种?现有方案一般让用户选择,或者额外训练路由器,DART 的做法却是极度的简单有效:先采两份 nothink 草稿,根据他俩的一致性判断是否需要思考,再利用熵来推测思考预算,不仅节省了 5.7× token,效果甚至还比 always-thinking 更好

2026-06-29 22:36:54 497

原创 06-26 · LLM 最新论文速览

今日候选池 88 篇,硬过滤 + LLM 打分后通过评估 23 篇,精选 Top-10,另列 13 篇速览

2026-06-26 22:39:23 245

原创 斯坦福大学提出 SPIRAL:让 RL 训练不再是单打独斗

推理模型的训练与测试经常存在脱节:训练时只顾优化单条推理轨迹,但测试时常使用各种 test-time scale 方法,采样多条轨迹后总结成最终答案。作者提出用集合强化学习训练搜索链、标准强化学习训练聚合链的联合框架,在 Qwen3-4B 上实现了 11 倍的并行扩展效率和 15% 的聚合性能提升

2026-06-26 21:57:14 323

原创 千问团队提出面向 agent 的语言世界模型

教 AI “理解世界怎么运转”,比直接教它 “怎么行动” 更能提升行动力。千问团队训练了覆盖七个领域的语言世界模型,既能作为独立模拟器给 Agent 提供可控训练环境,又能作为 Agent 预热阶段直接提升多轮任务表现

2026-06-25 22:08:54 586

原创 06-23~24 · LLM 论文合辑

今日候选池 193 篇,硬过滤 + LLM 打分后通过评估 18 篇,精选 Top-10,另列 8 篇速览

2026-06-24 21:33:11 209

原创 RODS:agentic RL 利用奖励信号在线合成训练数据

多轮工具调用 agent 的训练数据成本昂贵,传统方案难以合成高质量的可用数据。RODS 利用 GRPO 训练时的奖励信号挑选种子样本,搭建模拟环境构造高质量合成数据,只用 400 条种子样本就达到了 17K 的离线大规模合成数据水平

2026-06-24 21:00:53 325

原创 06-18 · LLM 最新论文速览

今日候选池 84 篇,硬过滤 + LLM 打分后通过评估 14 篇,精选 Top-10,另列 4 篇速览

2026-06-18 22:00:03 238

原创 小米提出 harnessX:自动进化的 agent 外壳

现有 harness 自进化方案难以泛化,实践中主要还是靠工程师手搓自迭代流程。HarnessX 通过结构化、可替换的执行器搭建 agent,利用跨 harness 版本的 GRPO 实现框架与模型协同进化,在五个基准上平均提升 14.5%,最高 44%

2026-06-18 21:58:02 762

原创 06-17 · LLM 最新论文速览

今日候选池 85 篇,硬过滤 + LLM 打分后通过评估 11 篇,精选 Top-10,另列 1 篇速览

2026-06-17 22:28:54 248

原创 06-16 · LLM 最新论文速览

今日候选池 101 篇,硬过滤 + LLM 打分后通过评估 15 篇,精选 Top-10,另列 5 篇速览。

2026-06-16 19:41:22 217

原创 DyCon:动态控制推理模型的思考强度

现有方法解决 LLM 过度思考问题时,都没有考虑推理过程中难度的实时变化。DyCon 通过一个线性回归器就准确地估计出了实时难度,训练简单有效且泛化性极强;再据此实现简单题少想、难题多想,让推理效率最高提升 52% ,准确率还上涨

2026-06-16 18:21:36 467

原创 06-15 · LLM 最新论文速览

今日候选池 89 篇,硬过滤 + LLM 打分后通过评估 7 篇

2026-06-15 20:56:38 224

原创 TRUST:RL 时保留模型的不确定性,效果提升 8%

强化学习训练智能体的工具决策时,正确和错误决策都被训得同样自信,不确定性的区分能力被"抹平"了。TRUST 把不确定性量化直接写进奖励,当成一股排斥力,推开对错决策,让 4B 模型追平 Claude Sonnet 4

2026-06-15 20:52:58 718

原创 06-11 · LLM 最新论文速览

今日候选池 82 篇,硬过滤 + LLM 打分后通过评估 11 篇,精选 Top-10,另列 1 篇速览

2026-06-11 20:17:50 262

原创 06-10 · LLM 最新论文速览

今日候选池 89 篇,硬过滤 + LLM 打分后通过评估 7 篇。

2026-06-10 21:28:18 214

原创 小红书提出 RedKnot:分头处理 kv 缓存,延时降低 60%效果还提升

现有的 PIC 方案(位置无关 KV 缓存复用)实际加速效果并不明显,RedKnot 在注意力头粒度上复用和重算缓存,配合分层稀疏 FFN 和 SegPagedAttention,在答案质量不降的前提下,把首 token 延迟最高压到原来的约 1/3.5

2026-06-10 21:20:05 545

原创 06-09 · LLM 最新论文速览

今日候选池 115 篇,硬过滤 + LLM 打分后通过评估 11 篇,精选 Top-10,另列 1 篇速览

2026-06-09 21:21:58 228

原创 06-08 · LLM 最新论文速览

今日候选池 86 篇,硬过滤 + LLM 打分后通过评估 12 篇,精选 Top-10,另列 2 篇速览

2026-06-08 21:20:29 254

原创 EoM:用哈耶克的市场经济理论开发智能体,效果惊人

通过拍卖、交易和基于财富的选择,无需中央控制,就能诱导出了专业化和协调机制。这暗示了一条完全与主流不同的路径 —— 与其费力设计单个智能体或协调机制,不如设计一套激励结构,让协调、分工、合作在其中自动浮现

2026-06-08 21:07:44 691

原创 StreamMA:把流式输出应用到多智能体系统

每产出一个推理步骤就立刻转发下游,形成流水线并行,结果不仅更快,推理质量还更高

2026-06-06 20:23:45 969

原创 06-05 · LLM 最新论文速览

今日候选池 86 篇,硬过滤 + LLM 打分后通过评估 14 篇,精选 Top-10,另列 4 篇速览。

2026-06-05 22:56:56 299

原创 06-04 · LLM 最新论文速览

今日候选池 89 篇,硬过滤 + LLM 打分后通过评估 13 篇,精选 Top-10,另列 3 篇速览

2026-06-04 22:30:49 271

原创 UnityMAS-O:专用于多 agent 工作流训练的 RL 框架

现有 RL 框架(verl、OpenRLHF 等)本质上还是面向具体的策略模型做优化,工作流编排被当作环境搭建的一部分,使得每个多智能体系统都需要手工编排,训练难度较大,不同系统也难以做公平比较。UnityMAS-O 实现了一套真正面向多智能体工作流的训练流程,支持自定义的角色设置、模型拓扑结构,在多种任务和实验设置下都拿到了显著提升

2026-06-04 22:27:39 407

原创 06-03 · LLM 最新论文速览

今日候选池 101 篇,硬过滤 + LLM 打分后通过评估 10 篇。

2026-06-03 19:12:35 278

原创 06-02 · LLM 最新论文速览

今日候选池 105 篇,硬过滤 + LLM 打分后通过评估 18 篇,精选 Top-10,另列 8 篇速览。

2026-06-02 23:44:12 330

原创 PIPO:把 token 成对打包,推理速度翻四倍效果还提升

大模型推理加速方案可分为输入侧压缩和输出侧投机解码,但像 PIPO 一样同时把两者接到一个 backbone 上的方案不多。通过复用 OPD 训练时有现成的 teacher-student 分布,省去了昂贵的 draft verifier

2026-06-02 23:19:13 466

原创 06-01 · LLM 最新论文速览

今日候选池 91 篇,硬过滤 + LLM 打分后通过评估 16 篇,精选 Top-10,另列 6 篇速览

2026-06-01 20:13:27 213

原创 大模型也需要睡眠:让模型 “休息一下“ 把记忆整理好再回答

SSM 混合架构的大模型瓶颈并不是状态空间的容量,而是写入信息时的计算量。本文提出类似 "生物睡眠" 的巩固机制:在 KV cache 被清除前,对当前窗口做 n 遍前向传播来更新状态空间,实现在不增加推理延迟的前提下,提高深度推理能力

2026-05-30 20:58:24 336

原创 SkillOpt:把 skill 文档当成模型权重来训练

现有 Agent Skill 要么手写、要么由 LLM 一次性生成或者无约束自修改,SkillOpt 把技能文档视为可训练的外部状态,用有界编辑 + 验证门控 + 拒绝缓冲 + 慢速更新构成完整的文本空间优化器,在 52 个评测格子上达到全部最优

2026-05-30 20:57:41 420

原创 05-29 · LLM 最新论文速览

今日候选池 97 篇,硬过滤 + LLM 打分后通过评估 19 篇,精选 Top-10,另列 9 篇速览

2026-05-29 17:23:33 307

原创 围绕日志设计 Agent:轻松实现逻辑分叉、情景重放与信息溯源

传统 agent 框架把日志当副产品,ActiveGraph 反过来把日志视作 agent 本身:把日志投影成图谱获取事件的结构化表达,并以此开发各类型的行为函数,最终实现了一个可溯源、可回放、可逻辑分叉的 agent 系统

2026-05-28 11:37:38 552

原创 05-27 · LLM 最新论文速览

今日候选池 92 篇,硬过滤 + LLM 打分后通过评估 10

2026-05-28 11:37:14 399

原创 SPD:不靠外部信号做自蒸馏,左脚踩右脚提效16%

现有自蒸馏方法要么依赖外部信号(验证器、奖励模型),要么无法跨领域泛化。SPD 证明只需从模型自身梯度中提取低秩能力子空间、投影 KV 激活来引导自生成,就能在代码、数学、QA 三个领域实现无外部信号的跨域泛化提升(最高 +16%)

2026-05-27 12:07:21 655

几个jar包:org.com、fastjson、httpclient、httpcore、jetty-util

commons-codec-1.6.jar commons-lang-2.6.jar commons-logging-1.1.1.jar fastjson-1.2.15.jar httpclient-4.2.1.jar httpcore-4.2.1.jar jetty-util-9.3.7.v20160115.jar

2019-07-25

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除