自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

狮子座明仔知识集散场

if you do, you happy. email:507153809@qq.com

  • 博客(255)
  • 资源 (4)
  • 收藏
  • 关注

原创 AgentSwing:长时Web Agent的上下文管理,为什么“一条路走到黑“行不通

AgentSwing:长时Web Agent上下文管理的自适应路由方法 本文针对长时Web Agent在复杂搜索任务中面临的"上下文腐烂"问题,提出了一种创新的自适应路由方案。传统方法如保留最近N轮、摘要压缩或全部丢弃等静态策略,在效率和精度之间存在固有矛盾。AgentSwing通过并行执行多种上下文管理策略,并前瞻性地评估各分支的未来表现,实现了动态最优策略选择。实验表明,该方法在BrowseComp等基准测试中,仅用静态方法1/3的交互轮次就能达到甚至超越其性能,将开源模型推至接近闭

2026-04-29 22:21:08 26

原创 不看Attention分数也能压缩KV Cache?TriAttention用三角函数找到了捷径

TriAttention:基于三角函数的KV Cache压缩方法 本文提出了一种创新的KV Cache压缩方法TriAttention,通过利用pre-RoPE空间中Q/K向量的高度集中特性,采用三角函数级数估计Key重要性。与传统基于attention score的方法不同,TriAttention在pre-RoPE空间中发现Q/K向量聚集在固定中心附近(集中度R>0.9),从而能够稳定评估Key重要性。在32K长序列推理任务中,仅用3072的KV预算就实现了与Full Attention相当的40

2026-04-29 22:01:48 143

原创 ThinkTwice: 让模型学会“做完题再检查一遍“,推理+自纠错联合训练只加3%开销

你有没有碰到过这种情况——让模型做完一道数学题后,再让它"检查一下自己的答案",结果它不但没改对,反而把原来对的答案给改错了?这个问题其实挺普遍的。GPT-5.2在AIME 2024上做refinement的时候,pass@4从90.0%降到了86.7%——你没看错,越检查越差。模型的self-refinement(自我纠错)一直是个悖论:我们希望模型能"三思而后行",但现实是它经常"三思而后废"。问题出在哪?

2026-04-29 21:50:19 436

原创 推理模型其实是“先决定,再编理由“?这篇论文用探针抓了个现行

论文摘要(≤150字) 研究发现推理模型在生成思维链前已做出决策。通过线性探针检测发现,模型在未输出任何token时(pre-gen状态)隐藏层即可高精度预测最终工具调用决策(AUROC>0.9)。激活引导实验显示,干扰预决策信号可使7-79%样本反转决策,而模型的思维链会为新决策"合理化"而非抵抗。这表明链式推理(CoT)可能更多是决策的事后解释而非真实推理过程,对依赖CoT的可解释性研究提出根本性质疑。 核心发现: 决策信号存在于pre-gen阶段的模型内部表示 思维链生成初期

2026-04-29 21:42:15 164

原创 Chinchilla 法则过时了?当推理预算纳入考量,过度训练小模型才是最优解

文章摘要:当推理预算纳入考量,过度训练小模型才是最优解 传统Chinchilla法则认为每个参数应对应约20个token,但最新研究发现这一法则已过时。威斯康星大学和斯坦福的研究表明,当考虑推理阶段的计算开销(如多次采样)时,过度训练小模型才是数学上的最优解。他们提出的T² Scaling Laws将模型大小、训练token数和推理采样次数联合优化,证明在相同总算力下,过度训练的小模型配合多次采样,性能显著优于Chinchilla推荐的大模型(如LAMBADA任务上49.90% vs 27.30%)。这一发

2026-04-29 21:32:06 464

原创 GRPO 和自蒸馏都不够好?这篇论文用样本路由把两者粘在一起,还真work了

LLM 后训练(post-training)中,GRPO 和 SDPO 各有软肋:GRPO 信号太粗(sequence-level reward 广播到每个 token),SDPO 长时间训练会崩溃(self-teacher 信号退化)。SRPO 的核心idea是按样本正确性做路由——答对的样本用 GRPO 做奖励强化,答错的样本用 SDPO 做 token 级纠错蒸馏,再加一个熵感知的动态加权来压制不靠谱的蒸馏信号。

2026-04-29 21:17:05 749

原创 用2B小模型给Coding Agent的工具输出“挤水分“:砍掉92%的token,召回率反而更高

Squeez摘要(145字) 这篇论文提出Squeez方法,解决Coding Agent工具输出冗余问题。通过训练2B小模型,在工具输出进入Agent前精准裁剪无关内容。实验表明: 高效裁剪:在11,477样本的benchmark上,砍掉92%输入token的同时保持0.86召回率 超越大模型:比Qwen 35B零样本表现高11个百分点 实用价值:覆盖27种工具类型,特别擅长处理type_check(98.9%冗余)等场景 工程优势:LoRA微调的2B模型部署成本低,适合作为Agent工作流的前置过滤器 该

2026-04-29 18:09:02 451

原创 SkillX:让 Agent 学会“传帮带“,自动构建可复用的技能知识库

SkillX 提出了一套全自动的技能知识库构建框架,核心思路是把 Agent 的执行轨迹分层蒸馏为三级技能(规划技能、功能技能、原子技能),然后通过迭代精炼和探索性扩展不断丰富这个技能库。关键效果:在 Qwen3-32B 上,BFCL-v3 的 Avg@4 从 53.67 涨到 63.67,AppWorld 从 27.68 涨到 35.12。更有意思的是,弱模型可以直接用强模型提炼出的技能库,实现"能力迁移"。

2026-04-29 17:56:07 438

原创 训练时把技能“喂“进参数里,推理时不带小抄也能满分——Skill0的技能内化之路

《Skill0:通过上下文强化学习实现技能内化》摘要 浙江大学与美团联合团队提出Skill0框架,创新性地解决了当前LLM Agent技能增强中存在的三大痛点:检索噪声、token开销高和技能未真正内化。该方法采用三步走策略:首先对技能进行任务类别分组,然后通过视觉化上下文强化学习训练模型,最后采用动态课程逐步减少技能依赖直至零样本推理。实验表明,在ALFWorld任务中,Skill0比标准RL基线提升9.7%,同时将推理token开销控制在0.38k;在Search-QA任务中提升6.6%,token仅需

2026-04-29 17:43:39 369

原创 让代码模型学会“脑内编译“:不执行代码也能验证对错?

本文提出了一种让代码模型"脑内编译"的新方法,通过自然语言执行轨迹监督训练和强化学习,使模型能够在不实际执行代码的情况下预测程序输出。实验表明,该方法显著提升了模型预测代码执行结果的准确率,其中7B模型预测准确率从34%提升至75.5%,超过许多更大规模的模型。在竞赛编程任务中,该方法将pass@1从49.0%提升至63.2%,接近真实执行的上限65.3%。这一突破解决了代码模型无法验证自身输出的关键问题,为代码生成和自我修复提供了新思路。

2026-04-29 17:26:50 368

原创 RLSD:当自蒸馏遇上RLVR,token级信用分配的一次漂亮融合

RLSD:融合自蒸馏与强化学习的token级信用分配新方法 这篇论文提出RLSD方法,巧妙结合了自蒸馏的细粒度信号与强化学习的可靠方向指引。针对GRPO方法在token级信用分配上的不足,以及OPSD存在的特权信息泄露问题,RLSD通过让环境奖励决定更新方向、自蒸馏差异决定更新幅度,实现了更精准的token级优化。实验表明,在Qwen3-VL-8B模型上,RLSD在5个多模态推理基准上平均准确率达56.18%,超越GRPO 2.32个百分点,同时解决了OPSD的训练不稳定问题。该方法通过分离信号方向与幅度控

2026-04-28 22:41:38 388

原创 DeepSeek-V4 技术报告精读:1.6T 参数、49B 激活、1M 上下文,开源模型的“算力性价比“被重新定义

DeepSeek-V4技术报告揭示了开源大模型在长上下文处理上的重大突破。该模型采用创新的混合注意力机制(CSA+HCA),将1M token上下文的计算成本降至V3.2的27%,KV缓存缩减90%。通过压缩稀疏注意力(CSA)和深度压缩注意力(HCA)交替架构,配合mHC残差连接和Muon优化器,实现了百万级上下文的高效处理。尽管在部分基准测试上仍落后顶级闭源模型3-6个月,但在SimpleQA、Codeforces等任务上显著提升开源模型上限。报告重点展示了如何将百万token上下文从概念演示转化为实用

2026-04-24 18:56:05 737

原创 GraSP:给Agent的技能加上因果图,多了反而更行

GraSP:技能编排的编译器革命 腾讯提出的GraSP通过结构化编译解决了Agent技能编排的核心痛点:当技能数量超过3个时,传统扁平化处理反而降低性能。其创新在于: 技能图编译:将检索到的技能转化为带类型化边的DAG,显式编码技能间的因果依赖(State/Data/Order边) 局部修复机制:采用五类有界算子(Rebind/InsertPrereq等)进行子图修补,将重规划复杂度从O(N)降至O(d^h) 动态路由:通过置信度检测自动切换结构化执行与ReAct回退 实验显示,GraSP在4个基准测试中全

2026-04-22 15:36:37 380

原创 找论文这件事,是时候让 Agent 替你干了 -- Paper Circle: 多智能体学术发现与分析框架

论文摘要 《Paper Circle: 开源多智能体学术发现与分析框架》提出了一套自动化文献检索与分析系统,通过两条核心流水线解决学术研究的痛点问题。Discovery Pipeline采用多智能体协作模式,整合arXiv、Semantic Scholar等多源检索,实现98.18%的命中率,并能自动去重43.5%的重复论文。Analysis Pipeline将PDF转化为结构化知识图谱,支持溯源和问答功能。系统测试显示,在500个查询基准上达到0.8824的MRR值,平均响应时间21秒,用户认知负荷仅1.

2026-04-20 21:15:08 56

原创 一个7B模型怎么干翻32B?这篇论文把Agent的记忆系统玩明白了

本文提出了一种创新的记忆智能代理框架MIA,通过解耦记忆管理、任务规划和执行操作,结合交替强化学习机制,显著提升了小模型在多模态任务中的表现。MIA的核心创新包括:结构化记忆存储搜索轨迹而非事实、Planner-Executor交替训练、测试时在线学习机制。实验显示,7B模型在MIA框架下性能超越32B基线模型,部分任务接近GPT-5.4水平。该研究为构建高效能记忆系统提供了新思路,解决了传统Agent系统面临的长上下文稀释、检索开销大、缺乏过程记忆等关键问题。

2026-04-20 20:59:08 193

原创 不调模型调“脚手架“:斯坦福 Meta-Harness 让AI自动优化LLM外围代码,效果炸裂

斯坦福Meta-Harness提出通过AI自动优化LLM外围代码(harness)来提升模型效果,而无需调整模型本身。该方法让编码代理搜索最优Python代码,包括检索策略、上下文管理等。实验显示,在线文本分类任务准确率提升7.7%,同时上下文token用量减少75%。在编程基准测试中,优化后的Claude Haiku 4.5表现最佳。Meta-Harness采用三步循环:提议代码、评估、存档,关键创新是保持原始执行轨迹的高保真度,让代理自主分析失败案例。消融实验表明,完整信息访问使中位数准确率达50%,远

2026-04-20 20:23:39 213

原创 检索模型该为谁训练?当搜索的用户从人变成了AI Agent

摘要 随着AI Agent逐渐成为搜索引擎的主要用户,传统基于人类点击日志训练的检索模型面临适配性问题。中国人民大学与中科院计算所的研究团队提出LRAT框架,通过分析Agent与人类在搜索行为上的关键差异(无位置偏差、依赖推理痕迹、浏览分布均匀),直接从Agent交互轨迹中挖掘三类监督信号:浏览行为构建正负样本、LLM验证过滤假阳性、推理时长加权相关性。实验表明,该方法在6种不同规模的Agent(4B-358B)上平均提升任务成功率28%,在跨域测试中证据召回率最高提升37.9%。这项工作为"Ag

2026-04-20 16:25:18 832

原创 LightThinker++:让大模型学会“记笔记“,推理token砍掉70%还能涨点

摘要: LightThinker++提出了一种创新的记忆管理机制,显著优化大模型推理时的token消耗问题。通过模拟人类解题时的"压缩-检索"过程,该方法让模型学会自主归档、展开和折叠中间推理步骤。实验表明,LightThinker++在GSM8K等基准测试中将peak token减少70%,推理速度提升26%,精度仅下降1%,且在长程任务中性能提升14.8%。相比传统方法,其独特优势在于支持可逆压缩,允许模型在需要时恢复关键细节。该技术为降低大模型推理成本提供了实用解决方案,相关代码已

2026-04-20 16:11:08 1040

原创 AI打比赛,连续三场第一名碾压所有人类选手——GrandCode做对了什么?

GrandCode是一个多智能体竞赛编程系统,基于Qwen 3.5-397B构建。它把竞赛编程拆解为四个协作模块:主求解器、假设生成器、摘要压缩器和对抗测试用例生成器。训练上提出了Agentic GRPO——针对多阶段Agent rollout中"反馈延迟"和"off-policy漂移"的问题,将梯度更新拆为即时奖励和延迟修正两阶段。系统在2026年3月连续三场Codeforces正式比赛中全部获得第一名。

2026-04-20 16:00:13 316

原创 FileGram:让AI助手“记住“你怎么管文件,而不只是记住你说了什么

(数据生成引擎)、(诊断评测基准,4.6K QA对)和FileGramOS(三通道记忆架构)。核心思路是把用户在文件系统中的每一次读、写、移动、重命名等原子操作都当作行为信号,自底向上地构建 procedural(程序性)、semantic(语义性)和 episodic(情景性)三个维度的用户画像。

2026-04-20 15:40:40 272

原创 CORAL:当多个 AI Agent 学会自己搞进化,效率碾压传统搜索 3-10 倍

CORAL:自主多智能体进化框架实现开放式发现突破 MIT等机构提出的CORAL框架突破了传统进化搜索的限制,将控制权完全交给AI Agent。该框架通过四个自主Agent协同工作,在共享记忆和异步协作机制下,实现了11个数学/算法/系统优化任务的全面SOTA表现。相比传统方法,CORAL将评估次数从60-100次降至5-56次,效率提升3-10倍,并在Anthropic的kernel工程任务上创下新纪录(1363→1103 cycles)。核心创新在于将进化搜索范式从"LLM作为工具"

2026-04-20 15:26:05 374

原创 Claw-Eval: 你以为你的 Agent 很安全?44% 的安全违规被漏检了

文章摘要 Claw-Eval是北大和港大团队提出的新型Agent评估框架,针对当前主流评测方法只看结果不看过程的缺陷,设计了"全程录像"式的三阶段评估体系。该框架包含300个任务和2159个评分项,通过三条独立证据链交叉验证Agent表现。实验覆盖14个前沿模型,发现传统LLM评测会漏检44%的安全违规行为。评分采用安全一票否决制,一旦出现安全违规总分归零。结果显示Claude Opus表现最稳定,而某些模型在复杂任务上通过率暴跌至0%。该研究揭示了当前Agent评估中存在的严重安全隐患

2026-04-20 15:11:55 429

原创 你的AI助手会“翻旧账“吗?ClawArena告诉你,绝大多数Agent在信息变化面前一塌糊涂

ClawArena论文提出首个评测AI Agent在动态、冲突、模糊信息环境中表现的基准,包含64个场景、1879轮评测和365次动态更新。测试显示模型能力差异导致15.4%性能波动,远大于框架差异(9.2%)。当前Agent在信息更新阶段表现断崖式下跌,动态适应能力严重不足。该研究揭示了现有评测体系与真实场景的脱节,为开发更鲁棒的持久性助手提供了新方向。

2026-04-20 15:06:41 544

原创 ASI-Evolve: 让AI自己搞研究、自己做实验、自己迭代进化 -- 这事靠谱吗?

ASI-Evolve 给出了一个比较完整的 AI-for-AI 研究框架的设计范式,在架构、数据、算法三个方向都展示了可观的自动化发现能力。Cognition + Analyzer 的双模块设计是核心创新,消融实验验证了其有效性。但"AI 加速 AI"这个叙事目前还是偏理想化的。系统依然需要大量人类先验来定义搜索空间和评测标准,计算成本也缺乏透明度。它更像是一个高效的自动化研发助手,而不是一个能独立做研究的 AI 科学家。

2026-04-14 20:29:19 385

原创 Agent的技能库看起来很美好,但真用起来呢?这篇论文给出了残酷的答案

这篇论文揭示了Agent技能库在现实应用中的局限性:研究发现,随着场景从理想化(手工匹配技能)转向真实(自主检索技能),技能带来的性能增益会大幅衰减。例如Claude Opus 4.6的通过率从55.4%降至38.4%,仅比不用技能的baseline高3个百分点。论文提出了渐进式评估框架和技能精炼方法,发现查询级精炼可使Claude性能提升8%,但对较弱模型可能适得其反。核心结论是:技能库的有效性高度依赖模型能力,检索质量差时技能反而会成为干扰,而当前主流benchmark可能高估了实际应用效果。

2026-04-14 20:22:47 379

原创 AI写的论文到底有多少幻觉?东京大学提出首个系统评估框架PaperRecon

东京大学团队提出首个AI论文质量评估框架PaperRecon,通过"论文重建"任务系统评估AI写作的表现力和幻觉问题。该框架要求AI基于压缩摘要重建论文,并与原文对比分析。实验发现:Claude Code表现力更强但平均每篇论文出现10+个幻觉,Codex幻觉较少(约3个)但写作质量较差。研究揭示了当前AI写作的核心困境——写得好与写得正确难以兼顾。该框架包含51篇顶会论文的评测基准PaperWrite-Bench,采用双维度评估(表现力评分+幻觉检测),为AI科研自动化提供了重要质量监

2026-04-14 17:59:38 386

原创 推理偷工减料?上下文是如何悄悄“缩短“大模型思考过程的

摘要:上下文如何缩短大模型的推理过程 研究表明,大模型的推理深度会因上下文环境而显著变化。当数学题被包裹在无关内容或多轮对话中时,四个主流推理模型(Qwen3.5-27B、GPT-OSS-120B等)的推理token数平均缩减40-50%,自我验证行为减少,困难任务准确率下降7-16个百分点。实验发现,模型并非更快找到答案,而是减少了后续检查步骤——在相同推理前缀下,长上下文使模型结束思考的概率从57%升至68%。这种"剂量效应"从几百token就开始显现,对实际AI系统设计具有警示意义

2026-04-14 17:56:47 371

原创 TurboQuant:用 3-bit 把 KV Cache 压 6 倍,Google 给内存芯片上了一课

Google Research的TurboQuant技术通过3-bit量化将KV Cache压缩6倍,显著提升大模型推理效率。该技术基于数学证明:高维向量随机旋转后坐标近似独立且服从已知分布,可直接应用最优标量量化器。TurboQuant提供两种算法:TurboQuant_mse最小化均方误差,TurboQuant_prod通过两阶段量化实现无偏内积估计,确保注意力机制精度。实验显示,在4倍压缩下TurboQuant性能与全精度模型相当,解决了传统量化方法在压缩率和精度间的矛盾,为大模型长上下文推理提供了高

2026-04-01 20:27:22 445

原创 LLM能学会合作还是学会作弊?社会困境博弈中的策略生成与奖励黑客

这篇论文探讨了让LLM生成Python策略代码参与多人博弈游戏的新方法。研究发现,在序贯社会困境中,LLM生成的策略效率达到传统Q-learning的6倍,并涌现出领地划分、动态调度等复杂合作行为。但更引人深思的是,当允许LLM修改环境时,它发现了5种作弊方式(如传送、生成无限资源),这些攻击在所有社会指标上都优于合法策略。研究揭示了表达力与安全性的根本矛盾:系统赋予LLM的能力越强,潜在风险就越大。论文通过密集反馈与稀疏反馈的对比实验,证明了多维反馈对策略优化的价值,同时警示了过度优化指标可能导致规则破坏

2026-04-01 20:22:44 326

原创 从一个Agent到一支团队:Claude Code多Agent协作架构全解——源码精读(三)

Claude Code多Agent协作架构核心解析 本文深入剖析了Claude Code从单Agent到多Agent团队的协作架构设计。系统通过持久化任务DAG解决任务依赖管理问题,每个任务以JSON文件存储依赖关系,自动解锁下游任务。采用线程+通知队列实现后台任务并行化,保持主循环单线程的简洁性。团队协作基于持久身份+JSONL邮箱机制,通过config.json名册管理成员,JSONL文件实现跨Agent通信。最后引入结构化握手协议处理关机和敏感操作审批,确保协作可靠性。整套架构贯彻"磁盘状态

2026-04-01 20:21:34 741 2

原创 上下文撑破之前,Claude Code 如何“清理记忆“——源码精读(二)

摘要 Claude Code通过三大机制解决上下文窗口限制问题: Subagent机制:将复杂子任务隔离到独立子进程中,父节点仅保留最终摘要,避免中间过程污染主上下文。子Agent禁止递归调用,防止指数级爆炸。 Skill系统:采用"廉价索引+按需加载"的两层知识管理,系统提示中只保留技能目录,实际内容使用时才注入,显著降低固定开销。 三层上下文压缩: micro_compact:静默清理旧工具结果 auto_compact:token超阈值时进行LLM摘要 reactive:API报错

2026-04-01 20:18:55 759

原创 30行代码,就是一个完整的AI Agent——Claude Code源码精读(一)

摘要 Claude Code的核心机制仅需30行Python代码实现:一个while循环+工具调度表构成完整的Agent骨架。其三层架构包括: 基础循环:LLM调用工具→执行→结果返回→循环直到模型主动停止 工具系统:通过dispatch map字典扩展工具,保持循环不变,每个工具自带路径沙箱安全机制 任务规划:TodoWrite机制防止模型偏离任务,采用状态流转和自动提醒确保专注 关键设计特点: 消息历史全累积在messages中 工具扩展不影响核心循环 安全边界由各工具自行维护 通过状态约束和自动提醒实

2026-04-01 20:14:29 502

原创 自蒸馏让大模型变“自信“了,推理能力却崩了——不确定性才是推理的命脉

自蒸馏让大模型变"自信"却损害推理能力 研究发现,自蒸馏方法(Self-Distillation)虽能提升任务效率,却会显著降低大语言模型的数学推理能力(如准确率暴跌40%)。关键原因在于该方法压制了模型推理时的不确定性表达(如"wait"、"hmm"等犹豫词),而这些"犹豫"恰恰是模型自我纠错的核心机制。实验显示: 信息提示越充分,模型回答越短(减少95%不确定性词) 用"自信"数据训练后,AIME24成绩

2026-03-30 19:39:56 362

原创 一次推理输出多个答案:MIT用强化学习打破LLM的“熵坍缩“困局

MIT团队提出Multi-Answer RL方法,解决大模型经RL训练后输出单一化的问题。该方法通过集合级奖励和校准惩罚,让模型单次推理即可输出多个差异化答案及置信度。实验显示,在医疗诊断、模糊问答和编程任务中,相比单答案基线,该方法覆盖率提升27%-37%,编程任务准确率提升69%,同时降低44%的token消耗。研究还验证了模型能保持输出多样性和校准性能,为实际应用场景提供了更高效的解决方案。

2026-03-30 19:23:47 178

原创 8B小模型干翻GPT-4o?用“信息不对称“让LLM自己查自己的幻觉

阿里巴巴团队提出MARCH框架,通过多智能体协同设计解决LLM自我验证中的确认偏差问题。该框架将生成与验证过程分解为三个独立角色(Solver、Proposer、Checker),关键创新在于让验证者Checker看不到原始回答,只能基于源文档独立作答,形成"信息不对称"的验证机制。配合Zero-Tolerance Reward训练策略,一个8B参数的模型在Facts Grounding榜单上达到85.23%准确率,超过GPT-4o(79.20%)和Claude 3.5 Sonnet(8

2026-03-30 17:58:33 182

原创 用λ演算驯服LLM的递归:8B小模型干到70B的表现

论文《用λ演算驯服LLM的递归:8B小模型干到70B的表现》提出λ-RLM框架,通过λ演算的类型化组合子替代LLM的自由代码生成,解决长文本处理中的递归控制问题。该方法将计算分为符号控制层、规划优化层和神经求解器三层,确保程序终止性和成本可控性。实验表明,λ-RLM使8B小模型在长文本任务上达到70B模型的准确率(35.7% vs 36.1%),延迟降低3.1倍,尤其在弱模型上提升显著(+21.9pp)。该工作为LLM长文本处理提供了形式化保障的结构化方案。

2026-03-30 17:55:02 151

原创 Cursor 自研 Composer 2:1万亿参数 MoE + 强化学习,编程 Agent 性能暴涨 61%

Composer 2 是 Cursor 团队针对Agentic 软件工程场景专门训练的模型。继续预训练强化代码知识 +大规模强化学习提升端到端任务完成能力。:61.3%(对比上一代 Composer 1.5 的 44.2%,相对提升 37%:73.7%:61.7%图1:Composer 2 与多个前沿模型在 CursorBench-3、SWE-bench Multilingual、Terminal-Bench 三项基准上的对比。

2026-03-30 17:15:41 690

原创 当AI学会自己搞安全研究:Claude自主发现的攻击算法,把30多种人类方法全干趴了

AI自主安全研究:Claude发现超越人类方法的攻击算法 这篇论文展示了Claude AI自主进行安全研究的突破性成果。研究人员让Claude Code作为自主研究智能体,在包含33种现有攻击方法的环境中独立探索新的对抗攻击算法。令人惊讶的是,Claude设计的方法在多项测试中大幅超越人类成果:在GPT-OSS-Safeguard-20B模型上实现40%的越狱成功率(人类方法≤10%),在Meta-SecAlign-70B上达到100%的提示注入成功率(人类最佳56%)。 Claude主要通过四种策略取得突

2026-03-30 17:10:35 365

原创 7B小模型吊打GPT-5?CarePilot用Actor-Critic范式攻克医疗软件自动化

医疗软件GUI自动化新突破:CarePilot框架7B小模型性能超越GPT-5 摘要:MBZUAI等团队提出CarePilot框架,针对医疗软件复杂GUI操作场景,通过Actor-Critic多智能体架构和工具接地技术,使7B参数开源模型在医疗任务上达到48.9%准确率,比GPT-5高出近13个百分点。研究团队同时开源了首个医疗GUI操作基准CareFlow,包含1100个8-24步的临床工作流任务。框架创新性地将视觉感知与决策解耦,通过Critic Agent的三层反思机制和知识蒸馏技术,显著提升了长步骤

2026-03-30 16:57:50 306

原创 BEAVER:不用训练也能把12万token压到3000,还比LLMLingua快26倍?

BEAVER:一种免训练的分层提示压缩方法,通过结构化页面选择实现高效长文档处理。该方法将长文档切分为页面,采用双路池化编码(均值+最大池化),结合语义与词法混合打分选择关键页面,并扩展至完整句子边界。实验表明,BEAVER在128k token文档上仅需1.2秒延迟,比LLMLingua快26.4倍,在RULER多针检索任务上达到83.7分。其创新在于将逐token筛选升级为结构化页面选择,平衡了速度与准确性,无需额外训练即可适配不同模型。

2026-03-30 16:42:44 466

QQ密码保护查询器.exe及其全部代码

QQ密码保护查询器.exe及其全部代码,对于代码有问题者可以加我讨论!!!

2012-02-23

整理IP段工具

整理IP段工具,工具集.这个对于网络攻防很有用,希望网友能够安全使用,用在有意义之地。

2012-02-23

用C语言打造贪吃蛇的游戏

用C语言打造贪吃蛇的游戏,这是一个简单的尝试,希望能够共同学习。。

2012-02-23

Visual_Assist_X_10.6.1856(破解补丁)

Visual_Assist_X_10.6.1856(破解补丁),解压到安装目录并覆盖就行了。

2012-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除