- 博客(275)
- 资源 (4)
- 收藏
- 关注
原创 PPPO 论文解读:前缀决定推理,RLVR 只优化开头就够了
本文提出了PPPO(Prefix Optimization for LLM Reasoning)方法,针对大型语言模型推理中的"开端锁定效应"(BLE)进行优化。研究发现,模型推理结果的质量主要由前15%的token决定,错误的前缀会导致后续生成难以纠正。 PPPO的核心创新包括: 仅对前缀token进行梯度回传,减少65%以上的计算量 渐进式前缀比例策略,从15%逐步提升到35% 多续写累积奖励机制,通过8次续写评估前缀质量 实验结果表明,在多个基准测试中,PPPO相比GRPO方法平均提升18个百分点,同
2026-05-31 11:15:40
490
原创 MEML-GRPO 论文解读:异构多专家互学习破解 RLVR 的奖励稀疏
本文提出MEML-GRPO方法,通过异构多专家互学习解决强化学习验证推理(RLVR)中的奖励稀疏问题。核心思路是使用三种不同风格的system prompt(ground truth、DeepSeek-R1、Doubao-1.5-thinking)作为异构专家,在同一基础模型上进行多轮rollout采样,并通过KL蒸馏让弱专家向强专家学习。方法包含三个关键组件:多专家微调(MEF)使模型具备多风格推理能力,强化互专家学习(RIEL)实现专家间知识迁移,以及困难样本缓冲机制(Hard Example Buff
2026-05-31 11:11:50
438
原创 LLMdoctor:用小模型 doctor 在 token 级别给冻结的 patient 大模型做“对齐处方“
本文提出LLMdoctor框架,通过"医生-病人"范式实现大型语言模型的高效测试时对齐。核心创新包括:1)利用冻结大模型自身通过不同prompt生成正负行为变体,无需额外训练奖励模型即可获得token级奖励信号;2)基于生成流网络(GFlowNet)的子轨迹平衡损失(SubTB)设计TFPO算法,将稀疏token奖励转化为密集训练信号;3)在推理时通过轻量级doctor模型动态调节对齐强度,实现同一模型对不同需求的快速适配。实验表明该方法在7B模型上仅需1%计算量就能达到与RLHF相当的对齐效果,为多客户场
2026-05-31 11:04:03
102
原创 Length Bias Causal 论文解读:用因果反事实拆掉 RLHF 奖励模型的“啰嗦偏好“
论文摘要: 本文提出了一种基于因果推断的方法解决RLHF中的长度偏差问题。研究发现奖励模型将回答长度与质量错误关联,源于训练数据中内容质量和冗长度这两个因素的混淆。作者利用GPT-4o-mini生成了两类反事实样本(保持内容变长度和保持长度变内容),通过大规模数据增强(约945k对)实现了变量解耦。实验表明,47.43%的原始样本存在长度偏差偏好。改进后的奖励模型在RewardBench和Chatbot Arena评估中表现更优,下游PPO训练在AlpacaEval上的长度控制胜率达到37.18%,显著优于
2026-05-31 10:34:06
89
原创 Latent Reasoning Refinement:在不训练任何参数的前提下,给 Coconut 套一层“心理调节器“
Latent Reasoning Refinement:不训练参数优化推理轨迹 这篇论文提出了一种无需训练的推理期优化方法,通过两个核心组件提升Coconut类模型的潜在推理能力: 对比推理反馈搜索:利用训练过程中的强弱checkpoint生成对比梯度方向,动态调整潜在状态 残差嵌入优化:通过加权混合当前和前序状态保持推理稳定性 在MathQA和ProsQA等基准测试中取得显著提升(最高+7.7%),同时保持完全无需参数更新的特性。该方法揭示了潜在空间推理轨迹的后训练优化空间,为冻结模型场景下的推理优化提供
2026-05-31 10:07:54
216
原创 GenPRM:让 1.5B 的过程奖励模型,靠“边写边推理边跑代码“打赢 GPT-4o
我喜欢 GenPRM 的一个原因是它把"PRM 应该长什么样"这个问题重新打开了。它没有在分类式 PRM 上做小修小补,而是直接换了范式——让阅卷模型像考生一样写草稿、跑代码、然后再下结论。这种范式让"reasoning model"的概念第一次延伸到了过程监督这个原本被认为只能用 scalar 解决的领域。但我也清楚地看到,这篇 paper 的工业落地路径还很远:算力消耗、跨域泛化、code execution 的安全性,这三件事没有一件是可以靠"加更多 GPU"解决的。它的真正价值更多在科研层面。
2026-05-31 10:01:58
162
原创 一个 query 写五份草稿、互评后再选最好的那一条去更新——DRAFT-RL 把 RL 训练里的“独白“改成了“群聊“
DRAFT-RL提出多路径并行RL训练框架,通过多Agent协作解决单路径RL的探索不足问题。核心方法:每个Agent对同一query生成5份短草稿,其他Agent互评打分,reward模型综合选择最优路径进行PPO+模仿学习。在MATH、HumanEval等任务上提升3%+,同时减少33-42%训练步数。创新点在于将推理时的多路径思维链(CoD)引入训练环节,通过peer evaluation增强多样性探索,实验显示其生成质量与收敛速度优于Reflexion等基线方法。
2026-05-31 09:55:34
195
原创 DEPO:把“少 token + 少步骤“同时塞进 KTO 的偏好优化
DEPO论文提出了一种针对LLM智能体的双效优化方法,将效率分解为步级token数和轨迹级步数两个正交维度。通过扩展KTO偏好优化框架,在reward函数中加入基于反比例函数的效率奖励(仅对成功轨迹施加),实现了token成本和交互成本的同时降低。实验表明,该方法在WebShop和BabyAI任务中相比基线KTO进一步减少18% token使用,部分模型性能提升达29%。特别是揭示了单纯压缩单步token数(如R1-Distill)会导致步数激增,验证了双效拆分的必要性。该方法通过轻量级修改KTO框架,为L
2026-05-31 09:50:29
355
原创 DeCoRL:把推理链拆成“乐团合奏“——AAAI 2026 一篇把 RLHF 推到 32B 打 GPT-4o 的工作
DeCoRL 提出了一种创新的并行推理框架,将传统串行推理链拆解为多个并行子模块,通过模块化设计和双奖励机制实现高效协同推理。该方法主要解决两大痛点:1)传统整链奖励难以定位具体错误点;2)串行推理延迟过高。核心创新包括:1)将推理任务垂直切分为多个专一化模块并行处理;2)引入本地质量和贡献度双奖励信号;3)采用级联DRPO训练策略,先独立优化再联合调优。实验显示,32B模型在多个评测集上超越GPT-4o,同时实现3.8倍加速和72.4%能耗降低。这种方法将交响乐式的协同思维引入AI推理,为可解释、高效的大
2026-05-31 09:39:29
280
原创 Conformal CPO:把保形预测嵌入 LLM Agent 编排策略,可证明可靠性 + 30% 成本节省
摘要: 论文《Conformal Constrained Policy Optimization for Cost-Effective LLM Agents》提出将保形预测(conformal prediction)嵌入LLM Agent编排策略,实现可靠性保证与成本优化的平衡。该方法通过Base-Guide双模型协作(如LLaMA-2-7B与GPT-4o),利用强化学习训练策略选择模型响应,同时通过在线conformal prediction动态调整阈值,确保覆盖率≥1-α。实验显示,在HotpotQA任
2026-05-31 09:28:42
380
原创 强LLM不一定是好“优化器“:决定胜负的不是参数量,而是“局部精修“的能力
研究揭示:LLM作为优化器的性能差异主要取决于局部精修能力而非参数量 法国格勒诺布尔大学团队通过15个模型在8个任务上的大规模实验(72K+候选解)发现: Zero-shot能力仅解释10.3%性能差异,关键指标是模型作为"局部精修器"的稳定性 突破率(Breakthrough Rate)比新颖性更重要:持续小步改进的模型(如Mistral-24B)优于偶尔大跃进的模型 性价比王者:Mistral-24B-Instruct在帕累托前沿上超越GPT-4o和Gemini-1.5-Pro 该研究颠覆了"更强LLM
2026-05-15 21:10:27
61
原创 GFT:把 SFT 当成“极度稀疏奖励 + 不稳定重要性权重“的 RL 重做一遍
本文提出GFT方法,从RL视角重新审视SFT训练,发现SFT本质上是一种奖励极度稀疏且重要性权重不稳定的RL形式。通过Group Advantage Learning解决奖励稀疏问题,利用Dynamic Coefficient Rectification控制梯度爆炸,在数学推理任务上显著提升模型性能。实验显示,GFT在10K数据上训练Qwen2.5-Math-1.5B模型,将MATH分数提升23.96分,同时避免了传统SFT导致的能力退化问题。该方法创新性地将SFT和RL优化统一到一个框架中,为后训练方法提
2026-05-15 21:03:59
310
原创 你的检索器其实在“假装“听指令——Snowflake 用一个反转技巧把 305M 小模型拉到 SOTA
摘要 Snowflake最新研究揭示了一个关键问题:当前多数检索模型对用户指令"假装听话"——它们只匹配主题而忽略约束条件。研究者提出"Dual-View"创新方法,通过指令极性反转技术,强制模型真正理解指令语义。具体做法是:对每个指令负样本,用LLM生成一条互补指令,使原本的正负样本角色互换。实验显示,仅305M参数的小模型在指令跟随检索任务上性能提升45%,超越多个更大规模的通用模型。该方法特别适用于企业搜索和RAG系统,其核心价值在于:(1)即插即用的数据增强流程;(2)揭示了混合通用数据会削弱指令敏
2026-05-15 21:00:18
382
原创 DR-Venus:4B 小模型靠 1 万条开源数据,把 Deep Research 干到 9B 全员碾压
摘要 蚂蚁集团Venus团队提出的DR-Venus模型在Deep Research领域取得突破性进展。该研究通过仅使用1万条开源SFT数据和1千条RL数据,基于Qwen3-4B基座模型,开发出性能超越9B以下所有开源Agent的4B小模型。关键创新包括:1)SFT阶段对长轨迹进行5倍加权重采样,显著提升长程任务表现;2)RL阶段采用基于信息增益的IGPO算法替代传统GRPO,实现turn-level密集奖励。实验结果显示,该模型在BrowseComp评测中达到29.1分,BrowseComp-ZH达到37.
2026-05-15 20:56:39
187
原创 异质任务下的记忆提取:为什么单一Prompt就是搞不定,得“先聚类再演化“
摘要(149字): USC团队提出CluE框架,解决LLM记忆提取在异质任务中的适配难题。传统方法在同质任务上表现良好,但面对个性化聊天、Agent操作和解题等混合场景时,单一Prompt往往顾此失彼。CluE创新性地先对训练样本按"提取场景"聚类,再分簇优化Prompt,在18个数据集的BEHEMOTH基准上实现全面提升(总体+9.04%)。实验揭示关键发现:当从强基线Prompt出发时,现有演化框架普遍负增长,而CluE仍保持+6.54%增益。该工作首次系统论证了任务异质性对记忆提取的关键影响,为通用助
2026-05-15 20:50:16
339
原创 Agent 当裁判光看 Trajectory 不够,它得自己去环境里查证 —— AJ-Bench 论文解读
摘要 AJ-Bench论文提出了一种新型Agent-as-a-Judge评估框架,解决了传统LLM-as-a-Judge在复杂任务评估中的局限性。通过为Judge配备浏览器、文件系统等60种工具,使其能够主动验证环境状态,显著提升了评估准确性。实验表明,开启Agentic模式后,模型平均F1提升13个百分点,其中deepseek-v3.2表现甚至超过未使用工具的GPT-5等大模型。该研究揭示了当前Agent在工具使用和推理能力上的瓶颈,为Agent强化学习和奖励建模提供了新思路。
2026-05-15 20:40:33
362
原创 AgentSPEX:当 Agent 框架开始把“控制流“从 Python 里抠出来
AgentSPEX提出了一种基于YAML的声明式Agent框架,通过将控制流、状态管理等从Python代码中解耦,实现了工作流配置的可读性和可维护性。该框架采用11个核心原语(如task/step区分、call组合等)描述Agent行为,并配套完整的执行环境(沙箱、断点续跑等)。实验显示其在模型版本更迭时展现出更强的鲁棒性(SWE-Bench上仅下降0.2%)。这种"工作流即配置"的设计降低了领域专家参与门槛,同时保留了足够的表达能力来处理长程任务中的分支、循环等复杂逻辑。
2026-05-15 20:32:39
640
原创 AgentSearchBench:在 1 万个真实 Agent 里挑一个能干活的,到底有多难?
文章摘要 这篇论文提出了AgentSearchBench,一个针对AI Agent搜索的全新基准测试。研究团队从GPT Store等平台收集了9,759个真实Agent,构建了3,211个任务和66,740次执行评测。研究发现当前基于语义相似度的搜索方法存在严重局限——排名靠前的Agent与实际性能差距显著(NDCG@5从0.236降至0.022)。论文揭示了Agent搜索与传统工具检索的本质差异:Agent功能边界模糊、描述夸大现象普遍、必须通过执行验证能力。作者提出执行感知探针的轻量级改进方案,但更重要
2026-05-15 20:27:50
396
原创 Agent-World:当智能体训练终于不用再“假装“在跟世界打交道
LLM 越来越被期待变成"通用 agent"——不是聊天,是真的去操作 MCP server、改数据库、跑工具链。一是没有足够多、足够真的有状态环境;二是没有机制让 agent 在训练过程中持续发现自己哪里不会,再针对性补课。Agent-World 提出了一个组合拳:(1)——用一个 deep-research agent 自动从 web 上挖主题对齐的真实数据库、生成可执行工具集,再用图遍历和程序合成两条路径合成可验证任务;(2)
2026-05-15 20:17:00
586
原创 AggAgent:把并行轨迹当环境来交互,智能体聚合的新范式
AggAgent:智能体聚合新范式 Princeton团队提出AggAgent,解决智能体并行任务中的聚合难题。传统方法如投票或轨迹压缩存在信息丢失或成本过高问题。AggAgent创新地将并行轨迹视为"环境",配备4个轻量工具让聚合Agent按需检索和交叉验证信息。实验显示,在6个基准任务上,AggAgent平均提升2.4-5.3个点,深度研究任务提升达10.3点,且仅增加5.7%额外成本。该方法实现了任务通用、非启发式、全保真的聚合,为智能体并行扩展提供了高效解决方案。
2026-05-15 19:44:54
368
原创 AgentSwing:长时Web Agent的上下文管理,为什么“一条路走到黑“行不通
AgentSwing:长时Web Agent上下文管理的自适应路由方法 本文针对长时Web Agent在复杂搜索任务中面临的"上下文腐烂"问题,提出了一种创新的自适应路由方案。传统方法如保留最近N轮、摘要压缩或全部丢弃等静态策略,在效率和精度之间存在固有矛盾。AgentSwing通过并行执行多种上下文管理策略,并前瞻性地评估各分支的未来表现,实现了动态最优策略选择。实验表明,该方法在BrowseComp等基准测试中,仅用静态方法1/3的交互轮次就能达到甚至超越其性能,将开源模型推至接近闭
2026-04-29 22:21:08
72
原创 不看Attention分数也能压缩KV Cache?TriAttention用三角函数找到了捷径
TriAttention:基于三角函数的KV Cache压缩方法 本文提出了一种创新的KV Cache压缩方法TriAttention,通过利用pre-RoPE空间中Q/K向量的高度集中特性,采用三角函数级数估计Key重要性。与传统基于attention score的方法不同,TriAttention在pre-RoPE空间中发现Q/K向量聚集在固定中心附近(集中度R>0.9),从而能够稳定评估Key重要性。在32K长序列推理任务中,仅用3072的KV预算就实现了与Full Attention相当的40
2026-04-29 22:01:48
202
原创 ThinkTwice: 让模型学会“做完题再检查一遍“,推理+自纠错联合训练只加3%开销
你有没有碰到过这种情况——让模型做完一道数学题后,再让它"检查一下自己的答案",结果它不但没改对,反而把原来对的答案给改错了?这个问题其实挺普遍的。GPT-5.2在AIME 2024上做refinement的时候,pass@4从90.0%降到了86.7%——你没看错,越检查越差。模型的self-refinement(自我纠错)一直是个悖论:我们希望模型能"三思而后行",但现实是它经常"三思而后废"。问题出在哪?
2026-04-29 21:50:19
466
原创 推理模型其实是“先决定,再编理由“?这篇论文用探针抓了个现行
论文摘要(≤150字) 研究发现推理模型在生成思维链前已做出决策。通过线性探针检测发现,模型在未输出任何token时(pre-gen状态)隐藏层即可高精度预测最终工具调用决策(AUROC>0.9)。激活引导实验显示,干扰预决策信号可使7-79%样本反转决策,而模型的思维链会为新决策"合理化"而非抵抗。这表明链式推理(CoT)可能更多是决策的事后解释而非真实推理过程,对依赖CoT的可解释性研究提出根本性质疑。 核心发现: 决策信号存在于pre-gen阶段的模型内部表示 思维链生成初期
2026-04-29 21:42:15
190
原创 Chinchilla 法则过时了?当推理预算纳入考量,过度训练小模型才是最优解
文章摘要:当推理预算纳入考量,过度训练小模型才是最优解 传统Chinchilla法则认为每个参数应对应约20个token,但最新研究发现这一法则已过时。威斯康星大学和斯坦福的研究表明,当考虑推理阶段的计算开销(如多次采样)时,过度训练小模型才是数学上的最优解。他们提出的T² Scaling Laws将模型大小、训练token数和推理采样次数联合优化,证明在相同总算力下,过度训练的小模型配合多次采样,性能显著优于Chinchilla推荐的大模型(如LAMBADA任务上49.90% vs 27.30%)。这一发
2026-04-29 21:32:06
513
原创 GRPO 和自蒸馏都不够好?这篇论文用样本路由把两者粘在一起,还真work了
LLM 后训练(post-training)中,GRPO 和 SDPO 各有软肋:GRPO 信号太粗(sequence-level reward 广播到每个 token),SDPO 长时间训练会崩溃(self-teacher 信号退化)。SRPO 的核心idea是按样本正确性做路由——答对的样本用 GRPO 做奖励强化,答错的样本用 SDPO 做 token 级纠错蒸馏,再加一个熵感知的动态加权来压制不靠谱的蒸馏信号。
2026-04-29 21:17:05
800
原创 用2B小模型给Coding Agent的工具输出“挤水分“:砍掉92%的token,召回率反而更高
Squeez摘要(145字) 这篇论文提出Squeez方法,解决Coding Agent工具输出冗余问题。通过训练2B小模型,在工具输出进入Agent前精准裁剪无关内容。实验表明: 高效裁剪:在11,477样本的benchmark上,砍掉92%输入token的同时保持0.86召回率 超越大模型:比Qwen 35B零样本表现高11个百分点 实用价值:覆盖27种工具类型,特别擅长处理type_check(98.9%冗余)等场景 工程优势:LoRA微调的2B模型部署成本低,适合作为Agent工作流的前置过滤器 该
2026-04-29 18:09:02
482
原创 SkillX:让 Agent 学会“传帮带“,自动构建可复用的技能知识库
SkillX 提出了一套全自动的技能知识库构建框架,核心思路是把 Agent 的执行轨迹分层蒸馏为三级技能(规划技能、功能技能、原子技能),然后通过迭代精炼和探索性扩展不断丰富这个技能库。关键效果:在 Qwen3-32B 上,BFCL-v3 的 Avg@4 从 53.67 涨到 63.67,AppWorld 从 27.68 涨到 35.12。更有意思的是,弱模型可以直接用强模型提炼出的技能库,实现"能力迁移"。
2026-04-29 17:56:07
502
原创 训练时把技能“喂“进参数里,推理时不带小抄也能满分——Skill0的技能内化之路
《Skill0:通过上下文强化学习实现技能内化》摘要 浙江大学与美团联合团队提出Skill0框架,创新性地解决了当前LLM Agent技能增强中存在的三大痛点:检索噪声、token开销高和技能未真正内化。该方法采用三步走策略:首先对技能进行任务类别分组,然后通过视觉化上下文强化学习训练模型,最后采用动态课程逐步减少技能依赖直至零样本推理。实验表明,在ALFWorld任务中,Skill0比标准RL基线提升9.7%,同时将推理token开销控制在0.38k;在Search-QA任务中提升6.6%,token仅需
2026-04-29 17:43:39
426
原创 让代码模型学会“脑内编译“:不执行代码也能验证对错?
本文提出了一种让代码模型"脑内编译"的新方法,通过自然语言执行轨迹监督训练和强化学习,使模型能够在不实际执行代码的情况下预测程序输出。实验表明,该方法显著提升了模型预测代码执行结果的准确率,其中7B模型预测准确率从34%提升至75.5%,超过许多更大规模的模型。在竞赛编程任务中,该方法将pass@1从49.0%提升至63.2%,接近真实执行的上限65.3%。这一突破解决了代码模型无法验证自身输出的关键问题,为代码生成和自我修复提供了新思路。
2026-04-29 17:26:50
393
原创 RLSD:当自蒸馏遇上RLVR,token级信用分配的一次漂亮融合
RLSD:融合自蒸馏与强化学习的token级信用分配新方法 这篇论文提出RLSD方法,巧妙结合了自蒸馏的细粒度信号与强化学习的可靠方向指引。针对GRPO方法在token级信用分配上的不足,以及OPSD存在的特权信息泄露问题,RLSD通过让环境奖励决定更新方向、自蒸馏差异决定更新幅度,实现了更精准的token级优化。实验表明,在Qwen3-VL-8B模型上,RLSD在5个多模态推理基准上平均准确率达56.18%,超越GRPO 2.32个百分点,同时解决了OPSD的训练不稳定问题。该方法通过分离信号方向与幅度控
2026-04-28 22:41:38
470
原创 DeepSeek-V4 技术报告精读:1.6T 参数、49B 激活、1M 上下文,开源模型的“算力性价比“被重新定义
DeepSeek-V4技术报告揭示了开源大模型在长上下文处理上的重大突破。该模型采用创新的混合注意力机制(CSA+HCA),将1M token上下文的计算成本降至V3.2的27%,KV缓存缩减90%。通过压缩稀疏注意力(CSA)和深度压缩注意力(HCA)交替架构,配合mHC残差连接和Muon优化器,实现了百万级上下文的高效处理。尽管在部分基准测试上仍落后顶级闭源模型3-6个月,但在SimpleQA、Codeforces等任务上显著提升开源模型上限。报告重点展示了如何将百万token上下文从概念演示转化为实用
2026-04-24 18:56:05
1099
原创 GraSP:给Agent的技能加上因果图,多了反而更行
GraSP:技能编排的编译器革命 腾讯提出的GraSP通过结构化编译解决了Agent技能编排的核心痛点:当技能数量超过3个时,传统扁平化处理反而降低性能。其创新在于: 技能图编译:将检索到的技能转化为带类型化边的DAG,显式编码技能间的因果依赖(State/Data/Order边) 局部修复机制:采用五类有界算子(Rebind/InsertPrereq等)进行子图修补,将重规划复杂度从O(N)降至O(d^h) 动态路由:通过置信度检测自动切换结构化执行与ReAct回退 实验显示,GraSP在4个基准测试中全
2026-04-22 15:36:37
432
原创 找论文这件事,是时候让 Agent 替你干了 -- Paper Circle: 多智能体学术发现与分析框架
论文摘要 《Paper Circle: 开源多智能体学术发现与分析框架》提出了一套自动化文献检索与分析系统,通过两条核心流水线解决学术研究的痛点问题。Discovery Pipeline采用多智能体协作模式,整合arXiv、Semantic Scholar等多源检索,实现98.18%的命中率,并能自动去重43.5%的重复论文。Analysis Pipeline将PDF转化为结构化知识图谱,支持溯源和问答功能。系统测试显示,在500个查询基准上达到0.8824的MRR值,平均响应时间21秒,用户认知负荷仅1.
2026-04-20 21:15:08
95
原创 一个7B模型怎么干翻32B?这篇论文把Agent的记忆系统玩明白了
本文提出了一种创新的记忆智能代理框架MIA,通过解耦记忆管理、任务规划和执行操作,结合交替强化学习机制,显著提升了小模型在多模态任务中的表现。MIA的核心创新包括:结构化记忆存储搜索轨迹而非事实、Planner-Executor交替训练、测试时在线学习机制。实验显示,7B模型在MIA框架下性能超越32B基线模型,部分任务接近GPT-5.4水平。该研究为构建高效能记忆系统提供了新思路,解决了传统Agent系统面临的长上下文稀释、检索开销大、缺乏过程记忆等关键问题。
2026-04-20 20:59:08
231
原创 不调模型调“脚手架“:斯坦福 Meta-Harness 让AI自动优化LLM外围代码,效果炸裂
斯坦福Meta-Harness提出通过AI自动优化LLM外围代码(harness)来提升模型效果,而无需调整模型本身。该方法让编码代理搜索最优Python代码,包括检索策略、上下文管理等。实验显示,在线文本分类任务准确率提升7.7%,同时上下文token用量减少75%。在编程基准测试中,优化后的Claude Haiku 4.5表现最佳。Meta-Harness采用三步循环:提议代码、评估、存档,关键创新是保持原始执行轨迹的高保真度,让代理自主分析失败案例。消融实验表明,完整信息访问使中位数准确率达50%,远
2026-04-20 20:23:39
248
原创 检索模型该为谁训练?当搜索的用户从人变成了AI Agent
摘要 随着AI Agent逐渐成为搜索引擎的主要用户,传统基于人类点击日志训练的检索模型面临适配性问题。中国人民大学与中科院计算所的研究团队提出LRAT框架,通过分析Agent与人类在搜索行为上的关键差异(无位置偏差、依赖推理痕迹、浏览分布均匀),直接从Agent交互轨迹中挖掘三类监督信号:浏览行为构建正负样本、LLM验证过滤假阳性、推理时长加权相关性。实验表明,该方法在6种不同规模的Agent(4B-358B)上平均提升任务成功率28%,在跨域测试中证据召回率最高提升37.9%。这项工作为"Ag
2026-04-20 16:25:18
872
原创 LightThinker++:让大模型学会“记笔记“,推理token砍掉70%还能涨点
摘要: LightThinker++提出了一种创新的记忆管理机制,显著优化大模型推理时的token消耗问题。通过模拟人类解题时的"压缩-检索"过程,该方法让模型学会自主归档、展开和折叠中间推理步骤。实验表明,LightThinker++在GSM8K等基准测试中将peak token减少70%,推理速度提升26%,精度仅下降1%,且在长程任务中性能提升14.8%。相比传统方法,其独特优势在于支持可逆压缩,允许模型在需要时恢复关键细节。该技术为降低大模型推理成本提供了实用解决方案,相关代码已
2026-04-20 16:11:08
1082
原创 AI打比赛,连续三场第一名碾压所有人类选手——GrandCode做对了什么?
GrandCode是一个多智能体竞赛编程系统,基于Qwen 3.5-397B构建。它把竞赛编程拆解为四个协作模块:主求解器、假设生成器、摘要压缩器和对抗测试用例生成器。训练上提出了Agentic GRPO——针对多阶段Agent rollout中"反馈延迟"和"off-policy漂移"的问题,将梯度更新拆为即时奖励和延迟修正两阶段。系统在2026年3月连续三场Codeforces正式比赛中全部获得第一名。
2026-04-20 16:00:13
359
原创 FileGram:让AI助手“记住“你怎么管文件,而不只是记住你说了什么
(数据生成引擎)、(诊断评测基准,4.6K QA对)和FileGramOS(三通道记忆架构)。核心思路是把用户在文件系统中的每一次读、写、移动、重命名等原子操作都当作行为信号,自底向上地构建 procedural(程序性)、semantic(语义性)和 episodic(情景性)三个维度的用户画像。
2026-04-20 15:40:40
293
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅