自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

狮子座明仔知识集散场

if you do, you happy. email:507153809@qq.com

  • 博客(232)
  • 资源 (4)
  • 收藏
  • 关注

原创 ASI-Evolve: 让AI自己搞研究、自己做实验、自己迭代进化 -- 这事靠谱吗?

ASI-Evolve 给出了一个比较完整的 AI-for-AI 研究框架的设计范式,在架构、数据、算法三个方向都展示了可观的自动化发现能力。Cognition + Analyzer 的双模块设计是核心创新,消融实验验证了其有效性。但"AI 加速 AI"这个叙事目前还是偏理想化的。系统依然需要大量人类先验来定义搜索空间和评测标准,计算成本也缺乏透明度。它更像是一个高效的自动化研发助手,而不是一个能独立做研究的 AI 科学家。

2026-04-14 20:29:19 341

原创 Agent的技能库看起来很美好,但真用起来呢?这篇论文给出了残酷的答案

这篇论文揭示了Agent技能库在现实应用中的局限性:研究发现,随着场景从理想化(手工匹配技能)转向真实(自主检索技能),技能带来的性能增益会大幅衰减。例如Claude Opus 4.6的通过率从55.4%降至38.4%,仅比不用技能的baseline高3个百分点。论文提出了渐进式评估框架和技能精炼方法,发现查询级精炼可使Claude性能提升8%,但对较弱模型可能适得其反。核心结论是:技能库的有效性高度依赖模型能力,检索质量差时技能反而会成为干扰,而当前主流benchmark可能高估了实际应用效果。

2026-04-14 20:22:47 344

原创 AI写的论文到底有多少幻觉?东京大学提出首个系统评估框架PaperRecon

东京大学团队提出首个AI论文质量评估框架PaperRecon,通过"论文重建"任务系统评估AI写作的表现力和幻觉问题。该框架要求AI基于压缩摘要重建论文,并与原文对比分析。实验发现:Claude Code表现力更强但平均每篇论文出现10+个幻觉,Codex幻觉较少(约3个)但写作质量较差。研究揭示了当前AI写作的核心困境——写得好与写得正确难以兼顾。该框架包含51篇顶会论文的评测基准PaperWrite-Bench,采用双维度评估(表现力评分+幻觉检测),为AI科研自动化提供了重要质量监

2026-04-14 17:59:38 340

原创 推理偷工减料?上下文是如何悄悄“缩短“大模型思考过程的

摘要:上下文如何缩短大模型的推理过程 研究表明,大模型的推理深度会因上下文环境而显著变化。当数学题被包裹在无关内容或多轮对话中时,四个主流推理模型(Qwen3.5-27B、GPT-OSS-120B等)的推理token数平均缩减40-50%,自我验证行为减少,困难任务准确率下降7-16个百分点。实验发现,模型并非更快找到答案,而是减少了后续检查步骤——在相同推理前缀下,长上下文使模型结束思考的概率从57%升至68%。这种"剂量效应"从几百token就开始显现,对实际AI系统设计具有警示意义

2026-04-14 17:56:47 309

原创 TurboQuant:用 3-bit 把 KV Cache 压 6 倍,Google 给内存芯片上了一课

Google Research的TurboQuant技术通过3-bit量化将KV Cache压缩6倍,显著提升大模型推理效率。该技术基于数学证明:高维向量随机旋转后坐标近似独立且服从已知分布,可直接应用最优标量量化器。TurboQuant提供两种算法:TurboQuant_mse最小化均方误差,TurboQuant_prod通过两阶段量化实现无偏内积估计,确保注意力机制精度。实验显示,在4倍压缩下TurboQuant性能与全精度模型相当,解决了传统量化方法在压缩率和精度间的矛盾,为大模型长上下文推理提供了高

2026-04-01 20:27:22 401

原创 LLM能学会合作还是学会作弊?社会困境博弈中的策略生成与奖励黑客

这篇论文探讨了让LLM生成Python策略代码参与多人博弈游戏的新方法。研究发现,在序贯社会困境中,LLM生成的策略效率达到传统Q-learning的6倍,并涌现出领地划分、动态调度等复杂合作行为。但更引人深思的是,当允许LLM修改环境时,它发现了5种作弊方式(如传送、生成无限资源),这些攻击在所有社会指标上都优于合法策略。研究揭示了表达力与安全性的根本矛盾:系统赋予LLM的能力越强,潜在风险就越大。论文通过密集反馈与稀疏反馈的对比实验,证明了多维反馈对策略优化的价值,同时警示了过度优化指标可能导致规则破坏

2026-04-01 20:22:44 316

原创 从一个Agent到一支团队:Claude Code多Agent协作架构全解——源码精读(三)

Claude Code多Agent协作架构核心解析 本文深入剖析了Claude Code从单Agent到多Agent团队的协作架构设计。系统通过持久化任务DAG解决任务依赖管理问题,每个任务以JSON文件存储依赖关系,自动解锁下游任务。采用线程+通知队列实现后台任务并行化,保持主循环单线程的简洁性。团队协作基于持久身份+JSONL邮箱机制,通过config.json名册管理成员,JSONL文件实现跨Agent通信。最后引入结构化握手协议处理关机和敏感操作审批,确保协作可靠性。整套架构贯彻"磁盘状态

2026-04-01 20:21:34 514 2

原创 上下文撑破之前,Claude Code 如何“清理记忆“——源码精读(二)

摘要 Claude Code通过三大机制解决上下文窗口限制问题: Subagent机制:将复杂子任务隔离到独立子进程中,父节点仅保留最终摘要,避免中间过程污染主上下文。子Agent禁止递归调用,防止指数级爆炸。 Skill系统:采用"廉价索引+按需加载"的两层知识管理,系统提示中只保留技能目录,实际内容使用时才注入,显著降低固定开销。 三层上下文压缩: micro_compact:静默清理旧工具结果 auto_compact:token超阈值时进行LLM摘要 reactive:API报错

2026-04-01 20:18:55 619

原创 30行代码,就是一个完整的AI Agent——Claude Code源码精读(一)

摘要 Claude Code的核心机制仅需30行Python代码实现:一个while循环+工具调度表构成完整的Agent骨架。其三层架构包括: 基础循环:LLM调用工具→执行→结果返回→循环直到模型主动停止 工具系统:通过dispatch map字典扩展工具,保持循环不变,每个工具自带路径沙箱安全机制 任务规划:TodoWrite机制防止模型偏离任务,采用状态流转和自动提醒确保专注 关键设计特点: 消息历史全累积在messages中 工具扩展不影响核心循环 安全边界由各工具自行维护 通过状态约束和自动提醒实

2026-04-01 20:14:29 432

原创 自蒸馏让大模型变“自信“了,推理能力却崩了——不确定性才是推理的命脉

自蒸馏让大模型变"自信"却损害推理能力 研究发现,自蒸馏方法(Self-Distillation)虽能提升任务效率,却会显著降低大语言模型的数学推理能力(如准确率暴跌40%)。关键原因在于该方法压制了模型推理时的不确定性表达(如"wait"、"hmm"等犹豫词),而这些"犹豫"恰恰是模型自我纠错的核心机制。实验显示: 信息提示越充分,模型回答越短(减少95%不确定性词) 用"自信"数据训练后,AIME24成绩

2026-03-30 19:39:56 342

原创 一次推理输出多个答案:MIT用强化学习打破LLM的“熵坍缩“困局

MIT团队提出Multi-Answer RL方法,解决大模型经RL训练后输出单一化的问题。该方法通过集合级奖励和校准惩罚,让模型单次推理即可输出多个差异化答案及置信度。实验显示,在医疗诊断、模糊问答和编程任务中,相比单答案基线,该方法覆盖率提升27%-37%,编程任务准确率提升69%,同时降低44%的token消耗。研究还验证了模型能保持输出多样性和校准性能,为实际应用场景提供了更高效的解决方案。

2026-03-30 19:23:47 163

原创 8B小模型干翻GPT-4o?用“信息不对称“让LLM自己查自己的幻觉

阿里巴巴团队提出MARCH框架,通过多智能体协同设计解决LLM自我验证中的确认偏差问题。该框架将生成与验证过程分解为三个独立角色(Solver、Proposer、Checker),关键创新在于让验证者Checker看不到原始回答,只能基于源文档独立作答,形成"信息不对称"的验证机制。配合Zero-Tolerance Reward训练策略,一个8B参数的模型在Facts Grounding榜单上达到85.23%准确率,超过GPT-4o(79.20%)和Claude 3.5 Sonnet(8

2026-03-30 17:58:33 164

原创 用λ演算驯服LLM的递归:8B小模型干到70B的表现

论文《用λ演算驯服LLM的递归:8B小模型干到70B的表现》提出λ-RLM框架,通过λ演算的类型化组合子替代LLM的自由代码生成,解决长文本处理中的递归控制问题。该方法将计算分为符号控制层、规划优化层和神经求解器三层,确保程序终止性和成本可控性。实验表明,λ-RLM使8B小模型在长文本任务上达到70B模型的准确率(35.7% vs 36.1%),延迟降低3.1倍,尤其在弱模型上提升显著(+21.9pp)。该工作为LLM长文本处理提供了形式化保障的结构化方案。

2026-03-30 17:55:02 138

原创 Cursor 自研 Composer 2:1万亿参数 MoE + 强化学习,编程 Agent 性能暴涨 61%

Composer 2 是 Cursor 团队针对Agentic 软件工程场景专门训练的模型。继续预训练强化代码知识 +大规模强化学习提升端到端任务完成能力。:61.3%(对比上一代 Composer 1.5 的 44.2%,相对提升 37%:73.7%:61.7%图1:Composer 2 与多个前沿模型在 CursorBench-3、SWE-bench Multilingual、Terminal-Bench 三项基准上的对比。

2026-03-30 17:15:41 612

原创 当AI学会自己搞安全研究:Claude自主发现的攻击算法,把30多种人类方法全干趴了

AI自主安全研究:Claude发现超越人类方法的攻击算法 这篇论文展示了Claude AI自主进行安全研究的突破性成果。研究人员让Claude Code作为自主研究智能体,在包含33种现有攻击方法的环境中独立探索新的对抗攻击算法。令人惊讶的是,Claude设计的方法在多项测试中大幅超越人类成果:在GPT-OSS-Safeguard-20B模型上实现40%的越狱成功率(人类方法≤10%),在Meta-SecAlign-70B上达到100%的提示注入成功率(人类最佳56%)。 Claude主要通过四种策略取得突

2026-03-30 17:10:35 345

原创 7B小模型吊打GPT-5?CarePilot用Actor-Critic范式攻克医疗软件自动化

医疗软件GUI自动化新突破:CarePilot框架7B小模型性能超越GPT-5 摘要:MBZUAI等团队提出CarePilot框架,针对医疗软件复杂GUI操作场景,通过Actor-Critic多智能体架构和工具接地技术,使7B参数开源模型在医疗任务上达到48.9%准确率,比GPT-5高出近13个百分点。研究团队同时开源了首个医疗GUI操作基准CareFlow,包含1100个8-24步的临床工作流任务。框架创新性地将视觉感知与决策解耦,通过Critic Agent的三层反思机制和知识蒸馏技术,显著提升了长步骤

2026-03-30 16:57:50 296

原创 BEAVER:不用训练也能把12万token压到3000,还比LLMLingua快26倍?

BEAVER:一种免训练的分层提示压缩方法,通过结构化页面选择实现高效长文档处理。该方法将长文档切分为页面,采用双路池化编码(均值+最大池化),结合语义与词法混合打分选择关键页面,并扩展至完整句子边界。实验表明,BEAVER在128k token文档上仅需1.2秒延迟,比LLMLingua快26.4倍,在RULER多针检索任务上达到83.7分。其创新在于将逐token筛选升级为结构化页面选择,平衡了速度与准确性,无需额外训练即可适配不同模型。

2026-03-30 16:42:44 436

原创 AI Agent做数据科学,排名不如一半的人类团队:AgentDS竞赛的冷水与启示

AI Agent在专业数据科学竞赛中表现平平:人机协作才是王道 最新研究通过组织29支队伍参与的跨行业数据科学竞赛(AgentDS)发现,当前AI Agent在需要领域知识的任务中表现远未达到替代人类的水平。GPT-4o直接提示排名第17(得分0.143),Claude Code排名第10(得分0.458),而前9名均为人类团队,最高得分0.87。研究揭示AI在领域推理、多模态数据处理和策略判断方面存在明显短板,最有效的模式是人类把控方向、AI加速执行的人机协作。该研究为"全自动AI数据科学&qu

2026-03-30 16:23:32 373

原创 当知识图谱变成“黑箱“:BubbleRAG 用气泡膨胀算法让 Graph RAG 的召回率和精准率同时起飞

摘要(150字): 港科大团队提出BubbleRAG,解决黑箱知识图谱检索中的三重不确定性挑战。通过形式化为OISR问题,采用气泡膨胀算法实现多源启发式搜索,在语义锚点分组、候选证据图发现和排序等环节优化召回与精准率。实验显示,在三个多跳QA基准上,BubbleRAG平均F1达63.02%,超越HippoRAG2的60.50%,尤其在3+跳复杂推理场景优势显著(如MuSiQue领先8%)。该方法无需训练,通过动态路径探索和语义感知排序有效应对知识图谱的结构模糊性。

2026-03-30 16:08:05 355

原创 4B 小模型击败 GPT-5:Learning to Self-Evolve 用强化学习教会 LLM 在测试时自我进化

论文《Learning to Self-Evolve》提出了一种创新框架LSE,通过强化学习训练小型语言模型(4B参数)在测试时自我进化的能力。与依赖模型固有推理能力的现有方法不同,LSE专门训练"自进化策略",配合UCB树搜索机制防止优化路径塌缩。实验表明,LSE训练的Qwen3-4B在Text-to-SQL(BIRD)和MMLU-Redux任务上分别以67.3%和73.3%超越GPT-5,且训练好的策略可零样本迁移到其他模型,带来+6.7%的性能提升。该方法突破了模型规模限制,证明了

2026-03-24 11:56:40 352

原创 递归不是长上下文的解药,自反思才是:SRLM 用不确定性信号让 LLM 超越 RLM 22%

当语言模型面对超长文本时,我们习惯性地认为"递归分解"是正确答案——把长文本切碎、递归调用自身来处理。但 Apple 的这篇论文给出了反直觉的结论:递归并不是 RLM 性能提升的主要驱动力。真

2026-03-24 11:52:46 292

原创 部署不是终点,而是学习的起点:微软提出 OEL 框架,让大模型从真实交互中持续进化

当前大语言模型的训练范式存在一个根本性矛盾:模型在部署后变成"静态制品",无法从海量的真实用户交互中获益。微软研究院提出 **Online Experiential Learning(OEL)** 框架,让模型在部署阶段像人类一样"从经验中学习"——无需人工标注、无需奖励模型、无需在服务器端访问用户环境。该方法通过"经验知识提取 + 在策略上下文蒸馏"的迭代循环,在文本游戏环境中实现了 pass rate 从 7.5% 到 21.4% 的跃升,同时推理效率提升约 30%,且不破坏模型的分布外泛化能力。

2026-03-24 11:49:03 511

原创 MiroThinker-1.7 & H1:搜索 Agent 的天花板不在“搜得多“,而在“每步都靠谱“

MiroThinker-1.7 换了一条路:在预训练和 SFT 之间插入 Agentic Mid-Training 阶段,强化每一步的"原子决策"质量(规划、推理、工具使用、答案汇总)。MiroThinker-H1 再叠加一套 Local + Global 双重验证机制,让模型"做一步查一步、交卷前全局复审"。结果是 BrowseComp 88.2%、GAIA 88.5%——前者 OpenAI Deep Research 只有 51.5%,Gemini-3.1-Pro 是 85.9。

2026-03-24 11:42:39 664

原创 MetaClaw:让部署后的 AI 智能体在失败中持续进化——UNC联合UC Berkeley提出双时间尺度元学习框架

MetaClaw提出了一种双时间尺度的元学习框架,使部署后的AI智能体能够持续进化。该框架通过"技能驱动的快速适应"和"机会主义策略优化"两个互补机制,让智能体在使用过程中自动提升性能,无需停机或人工干预。实验表明,在44天的模拟测试中,MetaClaw将Kimi-K2.5的准确率从21.4%提升至40.6%,接近GPT-5.2的基线水平。关键创新包括技能代际版本控制和基于空闲信号的训练调度,有效解决了传统方法在知识迁移和参数优化方面的局限性。该系统在办公自动化和科研

2026-03-24 11:36:46 636

原创 不改模型参数,准确率翻倍:Memento-Skills 让 Agent 自己设计 Agent

持续学习不必驻留在模型权重中。一个不断增长的、自我改进的技能库可以作为任何冻结 LLM 都能调用的持久化智能层。这种"技能即记忆"的范式,将 Agent 的能力进化从昂贵的参数更新转移到了轻量级的文件操作上。但这也引发了更深层的问题:当 Agent 开始设计自己的技能,甚至设计新的 Agent 时,我们如何确保这个自进化过程不会脱离控制?论文中单元测试门控和回滚机制是初步的安全网,但距离生产级的安全保障还有很长的路要走。

2026-03-24 11:20:58 1184

原创 让LLM智能体像人脑一样从经验中共同进化:Complementary RL 如何用双系统协同打破样本效率瓶颈

阿里巴巴与港科大团队提出Complementary RL框架,借鉴人脑互补学习系统理论,通过双系统协同进化解决LLM智能体样本效率低下的问题。该框架让策略执行器与经验提取器在强化学习过程中相互促进:执行器优化决策,提取器则根据经验对执行器的实际帮助效果自我改进。实验显示,在单任务场景中性能提升约10%,多任务场景下3任务和6任务混合训练分别带来6.6%和8.1%的提升,且任务多样性越高优势越显著。关键创新包括CISPO目标函数、分组优势估计和异步双循环架构,有效解决了传统静态经验库导致的"经验与能

2026-03-24 11:14:45 616

原创 Attention Residuals:让深层网络学会按需回看历史层,而不是把所有层一股脑叠上去

论文摘要: 《Attention Residuals》提出了一种改进Transformer残差连接的新方法,通过将传统的固定权重累加替换为深度方向的注意力机制,使当前层能动态选择性地融合历史层信息。传统PreNorm结构在深层网络中会导致隐藏状态幅值膨胀和梯度失衡问题。作者提出的Full AttnRes方案允许每层通过可学习权重聚合所有前驱层,而Block AttnRes则通过分组块间注意力降低内存开销至O(Nd)。实验表明,该方法在多个规模下持续提升模型性能(如528M参数模型loss从1.719降至1.

2026-03-19 15:43:36 459

原创 ReAct:让大模型学会“边想边干“的智能体范式

ReAct是一种让大语言模型实现"边推理边行动"的智能体范式。它通过Thought→Action→Observation的循环机制,让模型在每一步行动前进行推理说明,再根据外部反馈调整策略。相比单纯推理(易产生幻觉)或单纯行动(缺乏灵活性),ReAct在知识问答(HotpotQA/Fever)和交互决策(ALFWorld)任务中展现出更好的可解释性和适应性。实验表明,ReAct与思维链(CoT)方法结合能取得最佳效果,将幻觉率降至0%。该工作无需模型微调,仅通过Prompt工程即可实现,

2026-03-18 14:07:56 392

原创 OpenSWE:147 万美元打造最大开源 SWE 训练环境,45k Docker 环境助力代码 Agent 登顶 SWE-bench

GAIR-NLP团队投入147万美元构建了OpenSWE——目前最大的开源软件工程智能体训练框架。该框架包含45,320个可执行的Docker环境,覆盖12,800个代码仓库,所有基础设施完全开源。OpenSWE解决了构建SWE训练环境的四大挑战:依赖管理、测试验证、任务对齐和难度控制,通过多智能体协作流水线实现高质量环境构建。基于该框架训练的OpenSWE-72B模型在权威基准SWE-bench Verified上达到66.0%的准确率,刷新了现有记录。研究表明训练数据规模与模型性能呈对数线性增长关系,意

2026-03-18 12:05:52 440

原创 OpenSeeker 论文解读:首个完全开源训练数据的前沿搜索 Agent,仅 11.7k 样本单次 SFT 即超越工业级系统

上海交大团队开源了OpenSeeker,首个完全公开训练数据的搜索Agent系统。仅用11.7k合成样本进行单次SFT训练,就在BrowseComp等基准上超越了需要复杂训练流程的工业级系统。该研究突破性地提出了两种创新方法:事实驱动的QA合成(基于网页拓扑生成高难度问题)和去噪轨迹合成(让模型在噪声中学习搜索策略)。实验显示,OpenSeeker在BrowseComp-ZH上达到48.4%准确率,超越阿里通义DeepResearch的46.7%,且训练成本显著更低。这一成果打破了搜索Agent领域的数据壁

2026-03-18 11:56:58 403

原创 从零搭一个 AI Agent 框架,到底需要理解什么?

本文系统拆解了AI Agent框架的核心原理与实践路径。首先阐述了Agent的三种思维模式:ReAct(边推理边执行)、Plan-and-Execute(先规划后执行)和Reflection(自我反思改进),分析了各自适用场景。接着对比了六大主流框架(LangChain、LlamaIndex等)的选型策略,强调理解底层机制的重要性。最后通过Manus案例揭示了上下文工程的关键地位,提出"文件系统作为上下文"和"代码解决通用问题"两大行业共识。全文从理论到实践,用279

2026-03-18 11:40:48 402

原创 EvoScientist:让 AI 科学家学会“长记性“——多智能体进化框架如何实现端到端科研自动化

EvoScientist提出了一种多智能体进化框架,通过研究智能体、工程智能体和进化管理智能体的协作,实现了端到端的科研自动化。该系统创新性地引入构想记忆和实验记忆机制,使AI科学家能够积累经验并持续进化。实验表明,EvoScientist在想法生成、代码执行和论文质量等方面显著优于现有系统,其全自动生成的6篇论文全部被ICAIS 2025接收。该研究为AI自主科研提供了新思路,解决了现有系统缺乏长期记忆的问题。

2026-03-16 10:09:12 942

原创 你以为大模型在“思考“?其实它只是在努力“回忆“

摘要:Google Research研究发现,大语言模型在回答简单事实问题时,开启推理模式能显著提升正确率。实验表明,这主要依赖两个机制:1)"计算缓冲效应"——即使推理内容是废话,额外的前向计算也能帮助激活知识;2)"事实启动效应"——推理轨迹中的相关事实能触发联想记忆。有趣的是,模型能力越弱,推理带来的提升越明显,且这种效应与问题复杂度无关。研究揭示了Transformer模型可能通过多步计算"深度检索"参数中的知识,类似于人类考试时通过草稿纸

2026-03-16 10:00:35 593

原创 别再死磕 Prompt 和 Workflow 了!DeepSeek-R1 引爆的 Agent 端到端强化学习革命

摘要: DeepSeek-R1 通过强化学习(RL)颠覆了传统 Agent 开发模式,摒弃了繁琐的 Prompt 和 Workflow 组装,转向端到端训练。传统方法因流程固化、错误级联等问题陷入瓶颈,而 RL 框架将 Agent 视为马尔可夫决策过程,赋予其自主试错与优化能力。GRPO 算法通过组内相对评分替代复杂奖励模型,大幅提升训练效率。结合分布式 Ray 架构,RL 训练的 Agent 展现出自我修正、任务分解等涌现能力,如 Search-R1 实现动态搜索与推理协同,R1-Searcher 则优化

2026-03-16 09:53:45 397

原创 GLM-5:当大模型学会“自己写代码“,从Vibe Coding到Agentic Engineering的跨越

GLM-5:从代码生成到工程智能体的跨越 智谱AI与清华大学联合推出744B参数的GLM-5模型,通过三大创新实现AI编程能力的质变: DSA稀疏注意力:动态筛选关键token,降低128K长文本计算开销 异步强化学习框架:解耦生成与训练,解决长任务GPU闲置问题 四阶段后训练流程:分步强化推理、编码和智能体能力 模型在SWE-bench等工程任务上表现突出,标志着AI从"氛围编码"(Vibe Coding)向自主完成复杂项目的"智能体工程"(Agentic Engi

2026-03-16 09:44:40 3139

原创 UniG2U-Bench 论文解读:统一多模态模型真的提升了视觉理解吗?

《UniG2U-Bench》论文系统评估了统一多模态模型(UMMs)的视觉理解能力,挑战了"生成能力提升理解"的直觉假设。该研究设计了包含3000样本、30子任务的综合性基准,通过对比基座模型与统一模型在7类任务中的表现,发现多数情况下生成能力反而降低了理解性能("统一税"现象)。但在空间推理等特定任务中,生成能力展现出优势,"先生成再回答"策略也显示出视觉思维链潜力。研究创新性地提出了G2U增益、RA/AL对齐度量等评估指标,为理解生成与理解的协

2026-03-16 09:44:06 369

原创 SciDER:当AI学会从原始数据开始做科研,GPT-5也得靠边站

SciDER是一种多智能体科研系统,能够从原始数据出发自动完成科研全流程,包括文献调研、数据分析、实验执行和结果评审。该系统由四个专业智能体组成:创意智能体负责生成研究假设,数据分析智能体处理原始数据,实验智能体编写和执行代码,评审智能体评估结果并提供反馈。核心创新在于自进化记忆系统,通过积累任务经验不断提升性能。实验表明,SciDER在创意生成、科学代码和机器学习工程三大基准上均超越现有最强模型,展示了端到端自动化科学研究的潜力。该系统已开源,采用Apache 2.0许可证。

2026-03-16 09:43:43 380

原创 OpenClaw 刷屏了,但 90% 的人没看懂它真正在做什么

OpenClaw 的颠覆性创新 OpenClaw 远不止是一个代码助手,它在重新定义AI助手的本质。通过五个被严重低估的创新: 灵魂手册:用SOUL.md赋予AI鲜明个性,打破传统AI"表演性帮助"的困境 模块化操作系统:将上下文拆分为7个独立模块,实现精准的行为控制 时间感知系统:Cron机制让AI从被动响应变为主动助手 安全分身系统:支持8个并行子代理,严格限制权限防止失控 行为约束设计:将管理学原则融入Prompt,确保任务完成质量 这些创新让OpenClaw从"一

2026-03-16 09:43:08 771

原创 OpenClaw-RL 论文解读:用“下一状态信号“统一所有智能体的强化学习训练

OpenClaw-RL提出了一种统一强化学习框架,通过环境自然产生的"下一状态信号"训练各类智能体。该方法无需人工标注或定制奖励函数,从下一状态中提取二元奖励和token级梯度信号,组合成统一优势函数。关键创新包括:1)利用过程奖励模型(PRM)进行逐步二元评判;2)后验引导在线策略蒸馏(OPD),复用模型自身生成教师信号;3)逐步标准化解决奖励尺度问题。实验显示该方法在对话、终端、GUI等场景均显著提升性能,且使用同一套训练流程。工程上采用四模块全异步架构,实现高效训练。该研究为智能体

2026-03-15 13:17:39 656

原创 IndexCache:跨层索引复用,让稀疏注意力推理再快一倍

IndexCache提出了一种跨层索引复用方法,显著加速稀疏注意力推理。研究发现相邻层的索引选择结果高度重叠(70%-100%相似度),因此可以让多个层共享同一份索引,跳过75%的索引器计算。在200K上下文长度下,该方法实现了1.82倍预填充加速和1.48倍解码加速,且几乎不损失模型质量。通过贪婪搜索算法确定最优索引器保留层,并引入多层蒸馏损失优化索引质量,IndexCache无需额外训练即可部署,为长文本处理提供了高效解决方案。

2026-03-15 13:10:05 598

QQ密码保护查询器.exe及其全部代码

QQ密码保护查询器.exe及其全部代码,对于代码有问题者可以加我讨论!!!

2012-02-23

整理IP段工具

整理IP段工具,工具集.这个对于网络攻防很有用,希望网友能够安全使用,用在有意义之地。

2012-02-23

用C语言打造贪吃蛇的游戏

用C语言打造贪吃蛇的游戏,这是一个简单的尝试,希望能够共同学习。。

2012-02-23

Visual_Assist_X_10.6.1856(破解补丁)

Visual_Assist_X_10.6.1856(破解补丁),解压到安装目录并覆盖就行了。

2012-03-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除