- 博客(138)
- 资源 (4)
- 收藏
- 关注
原创 AI Agent 的分身术:深度解析 OpenClaw 子代理系统设计
摘要 OpenClaw的子代理系统通过三大核心机制实现高效并行任务处理: Session隔离:采用严格的命名规范和权限控制,确保子代理独立运行且无法嵌套创建 上下文精简:子代理仅加载必要配置文件,禁用高风险工具,配备专用System Prompt保持专注 Lane并发控制:通过通道化管理实现差异化并发策略(子代理并发数8>主代理的4) 该系统让主Agent能安全派发多个"影分身"执行后台任务,显著提升处理效率,同时通过隔离机制避免资源冲突和权限越界。这种设计在保持系统稳定的前提下,
2026-02-04 18:01:13
648
原创 OpenClaw Cron 深度解读:让 AI Agent 学会自主定时工作
OpenClaw 的 Cron 系统让 AI Agent 具备了"设闹钟"的能力——不仅能定时提醒用户,还能自己悄悄去执行后台任务,干完活再汇报结果。
2026-02-04 17:38:53
1208
原创 扒开 Claude Code 的底裤:为什么你的 AI Agent 总是半途而废?
顶级 AI Coding Agent 的秘密不在模型能力,而在于一套精心设计的"上下文管理系统"——通过模块化 Prompt、强制迭代机制、任务追踪工具和双层循环架构,让 AI 从"聊天助手"进化为"真正的工程师"。顶级 AI Agent 的秘密是一套上下文管理系统,不是模型能力Prompt 模块化让系统灵活可维护TodoWrite + 强制迭代解决任务完成度问题双层循环架构支持复杂的多轮交互自我验证机制保证代码质量人格系统让 AI 行为稳定且高效现代 SDK大大降低了实现复杂度。
2026-02-04 17:32:25
1045
原创 AgentScope 深度解读:多智能体开发框架的工程化实践
AgentScope是一个创新的多智能体开发框架,通过消息驱动的通信机制、三层架构设计和内置容错机制,大幅降低了工业级多Agent应用的开发门槛。其核心特点包括:将消息作为Agent通信的唯一渠道,采用本地与分布式代码零差异的设计,提供Pipeline和MsgHub两种工作流编排方式,并内置四层容错机制应对LLM的不稳定性。相比AutoGen、MetaGPT等框架,AgentScope更强调通用性和工程化实践,支持可视化拖拽编程和分布式部署,使开发者能专注于业务逻辑而非底层实现。
2026-02-03 23:01:15
677
原创 Zep:时间知识图谱驱动的智能体记忆架构——让 AI 真正“记住“你
Zep提出了一种基于时间感知知识图谱的智能体记忆架构,通过Graphiti引擎动态维护对话中的实体、事实及其时间线。相比传统RAG方法,Zep解决了知识过时、实体混淆、关系丢失和时序混乱等问题,在LongMemEval基准上实现了18.5%的准确率提升,响应延迟降低90%,并将上下文token消耗从115k压缩到1.6k。该架构将对话记忆建模为三层子图结构:原始对话情节、语义实体子图和时间感知知识图谱,实现了从文本检索到结构化知识管理的范式转变。
2026-01-26 21:51:14
570
原创 Plan-and-Act:让AI智能体学会“先想后做“
Plan-and-Act 将智能体的"想"和"做"分离成两个专门的模块——Planner负责战略规划,Executor负责战术执行——再配合动态重规划机制和高效的合成数据生成,在Web导航任务上达到了57.58%的SOTA成功率。
2026-01-26 21:39:26
583
原创 Voyager:让 GPT-4 在《我的世界》里自主探索、终身学习
Voyager 是第一个在 Minecraft 中实现**终身学习**的 LLM 驱动智能体——它能**自己给自己布置任务**,**自己写代码执行**,**自己验证成功与否**,还能把学会的技能**存成"技能库"供以后调用**。在 160 轮探索中,它发现的物品数量是基线方法的 3.3 倍,解锁钻石工具的速度快了 15 倍。
2026-01-26 21:30:49
557
原创 A-Mem:让LLM智能体拥有“会思考“的记忆系统
A-Mem:让LLM智能体拥有动态进化的记忆系统 本文提出A-Mem记忆系统,借鉴卢曼的卡片盒笔记法,为LLM智能体构建能自主组织、动态链接、持续进化的记忆网络。传统记忆系统存在存储机械化、检索单一化、结构固定化三大痛点。A-Mem通过四大核心机制:1)结构化笔记构建,2)语义链接生成,3)记忆动态进化,4)智能检索,使记忆系统从被动存储变为主动知识网络。实验表明,该系统能显著提升智能体在长期对话和复杂任务中的表现。
2026-01-26 21:17:03
648
原创 奖励罕见:Uniqueness-Aware RL 如何让LLM学会“另辟蹊径“
本文提出Uniqueness-Aware RL方法,解决LLM在强化学习训练中出现的"探索崩塌"问题。传统RL训练使模型过早集中于少数主流解法,导致推理策略单一化。作者创新性地引入策略级多样性评估,通过LLM判断器将同一问题的多个解答按高层策略聚类,给予稀有但正确的策略更高奖励权重。该方法基于GRPO框架,在保持单次采样正确率的同时显著提升多次采样的解题多样性。实验表明,该方法能有效防止模型陷入局部最优,在数学推理等任务上展现出更全面的解题能力。核心突破在于将多样性优化从token层面提
2026-01-19 20:23:13
624
原创 PRL:让大模型推理不再“开盲盒“——过程奖励学习的理论与实践
过程奖励学习(PRL)通过将稀疏的最终奖励分解为细粒度的过程奖励,显著提升了大语言模型的推理能力。该方法基于严格的数学推导,将未来期望收益与KL成本相结合,定义了每个推理步骤的过程奖励。PRL无需额外训练奖励模型或进行昂贵的蒙特卡洛搜索,可直接集成到现有GRPO框架中。实验表明,PRL不仅提高了平均推理准确率,还拓宽了模型的推理能力边界,为解决强化学习中的信用分配问题提供了高效且理论严谨的解决方案。
2026-01-19 20:12:42
669
原创 MatchTIR:用二分匹配解决LLM工具调用的“吃大锅饭“难题
MatchTIR 提出用**二分匹配**(Hungarian算法/最优传输)来给多轮工具调用中的每一步精确打分,配合**双重级优势估计**,让4B小模型在复杂工具使用任务上干翻一众8B大模型。
2026-01-19 19:54:20
701
原创 FlowAct-R1:字节跳动实时交互式人形视频生成框架
训练时模拟推理的"不完美",推理时用记忆维护"一致性"层面挑战FlowAct-R1 的解法训练-推理一致性训练用真实帧,推理用生成帧Self-Forcing++:训练时混入伪生成帧长期时序一致性越生成越"走样"记忆细化:定期"校准"短期记忆行为自然度动作机械、状态切换生硬MLLM规划:用大模型理解语义,规划行为核心贡献技术创新实际意义实时流式生成流式缓冲区 + 分块去噪首帧1.5秒,无限时长长期一致性Self-Forcing++ + 记忆细化长时间生成不崩塌自然行为MLLM动作规划。
2026-01-16 21:25:46
1232
原创 AI-Researcher:让 AI 自主完成从文献调研到论文发表的全流程科研
完整工作流:唯一覆盖"文献→想法→代码→论文"全流程的开源系统高质量代码:导师-学生迭代机制显著提升实现质量标准化评测:Scientist-Bench 提供了业界首个全面评测基准成本友好:开源免费,API 成本远低于商业方案。
2026-01-16 21:17:57
662
原创 O-Researcher:多智能体蒸馏与强化学习打造开源深度研究新标杆
深度研究(Deep Research)是指需要LLM进行复杂、多步骤信息检索与综合分析的任务。规划能力:将复杂问题分解为多个子任务工具使用:调用搜索引擎、爬取网页等外部工具信息综合:整合多源信息形成连贯报告事实验证:确保引用准确、论据有据可查识别出RLHF、RLAIF、DPO等主要技术搜索每种技术的最新研究进展爬取相关论文和技术博客对比分析各自的优劣势综合形成结构化的研究报告O-Researcher为开源深度研究模型树立了新标杆。多智能体协作数据合成。
2026-01-16 20:53:52
797
原创 Youtu-GraphRAG 论文解读:腾讯优图的垂直统一图检索增强框架
Youtu-GraphRAG 通过引入"图模式"(Graph Schema)作为统一约束,将图构建、图索引和图检索三个阶段垂直整合,实现了**构建成本节省90%+**和**准确率提升16%+**的双重突破,是GraphRAG领域的重要进展。
2026-01-14 22:55:44
684
原创 M-ASK 论文解读:超越单体架构的多智能体搜索与知识优化框架
M-ASK框架通过解耦智能体搜索任务为两类五个专门角色(规划、搜索、回答、摘要、更新代理),采用结构化知识状态和轮次级密集奖励机制,解决了传统单体架构在复杂问答任务中的训练崩溃问题。实验显示,M-ASK将训练崩溃率从单体架构的90%降至0%,同时显著提升了搜索效率和答案质量。该框架通过分工协作和精细的奖励设计,实现了稳定且高效的智能体搜索系统。
2026-01-14 22:43:04
743
原创 2025 AI年度复盘:从100篇顶会论文看中美巨头的AGI路线之争
2025年AI领域迎来重大范式转变,从"暴力堆参数"转向精细化智能提升。基于100+篇顶会论文分析,四大技术突破尤为突出:流体推理通过Test-Time Compute让AI学会思考推演;长期记忆技术治愈模型"健忘症";空间智能补足视觉处理短板;元学习实现持续自我进化。其中,MoE架构、强化学习革新(如GRPO算法)和记忆系统升级成为关键驱动力。研究显示,AI在推理、长期记忆和视觉处理等原"零分项"取得突破性进展,标志着AGI发展进入新阶段。
2026-01-13 14:20:27
846
原创 Nested Learning 论文解读:打破深度学习架构的“幻觉“,让AI真正学会“记忆“
嵌套学习(Nested Learning)是一种全新的机器学习范式,它将模型、优化器和记忆统一看作多层级、并行的优化问题系统,每个组件按自身更新频率分层。基于这一视角,论文提出了 **HOPE**(Higher-Order Continuum Memory Processor)模块,模仿人脑多频率工作机制,实现了真正的持续学习能力,在语言建模、长上下文推理等任务上全面超越现有模型。
2026-01-13 11:15:23
303
原创 Engram:DeepSeek提出条件记忆模块,“查算分离“架构开启LLM稀疏性新维度
DeepSeek提出Engram条件记忆模块,实现LLM"查算分离"新范式。该模块通过哈希N-gram嵌入实现O(1)知识查找,与MoE形成互补双系统架构。关键创新包括:1)压缩分词器减少词表规模;2)多头哈希N-gram嵌入;3)上下文感知门控机制。实验表明,在27B参数规模下,Engram模型在知识、推理、代码和数学任务上全面超越纯MoE基线,验证了计算与存储解耦架构的有效性。这一设计为大模型稀疏性开辟了新维度,可能成为未来高效LLM的重要发展方向。
2026-01-13 10:51:22
471
原创 DocDancer:北大联合腾讯提出端到端训练的文档问答Agent,将DocQA形式化为信息寻求过程
北大联合腾讯AI Lab提出DocDancer,首个端到端训练的文档问答Agent。通过"搜索+阅读"双工具设计,将文档问答形式化为信息寻求过程,实现高效定位与深度理解。创新性提出"探索-综合"数据合成框架,自动生成高质量训练数据。在MMLongBench-Doc和DocBench两大基准测试中表现优异,超越现有方法并接近人类水平。案例分析显示,DocDancer能有效处理复杂文档(如财报分析),完成多跳推理和跨模态理解任务。该研究为文档智能理解提供了新思路,开源模型
2026-01-12 22:47:51
655
原创 GDPO:英伟达提出多奖励强化学习的“解耦归一化“策略,解决GRPO的优势崩溃问题
英伟达提出GDPO方法,通过解耦归一化策略解决多奖励强化学习中的优势崩溃问题。该方法对每个奖励信号单独进行组内归一化后再聚合,避免了GRPO算法中不同奖励组合被"压扁"为相同优势值的问题。GDPO采用三步策略:单奖励组内归一化、多奖励优势求和和批次级归一化,确保各奖励贡献均衡。实验表明,在工具调用、数学推理和代码推理三大任务上,GDPO性能全面超越GRPO。该方法还引入条件奖励设计,优先优化关键奖励指标,有效提升模型性能。
2026-01-12 22:34:59
712
原创 MiMo-V2-Flash 深度解读:小米 309B 开源 MoE 模型如何用 15B 激活参数吊打 671B 巨头?
小米开源MoE模型MiMo-V2-Flash技术突破:仅15B激活参数实现高性能推理 小米最新发布的MiMo-V2-Flash模型采用创新的混合专家架构(MoE),总参数309B但仅激活15B参数,在性能上媲美更大规模模型。核心技术包括: 混合滑动窗口注意力:结合Sink Bias机制,在128Token小窗口下保持长文本处理能力 多Token并行预测(MTP):最高提升2.6倍推理速度,生成速度达150 tokens/s 高效训练策略:27万亿Token三阶段训练,256k长上下文支持 极低显存需求:RT
2026-01-09 21:33:52
948
原创 递归语言模型(RLM)——让大模型告别“上下文腐烂“,处理能力暴涨100倍!
MIT团队提出递归语言模型(RLM),突破大语言模型处理长文本的瓶颈。RLM创新性地将长文本作为外部环境变量,让模型通过编写代码递归调用子模型处理信息,实现10M+ token级别的超长文本处理能力。相比传统方法,RLM采用"分而治之"策略,避免了上下文窗口限制和二次方计算成本增长,性能提升可达100倍。该技术借鉴外存算法思想,使模型能像程序员一样按需查阅信息,而非硬记全部内容,为处理法律合同、代码库等超长文本提供了新范式。
2026-01-09 21:20:50
978
原创 SimpleMem:让AI智能体拥有“过目不忘“的高效记忆系统
摘要:SimpleMem提出了一种高效的三阶段记忆系统,解决LLM智能体的"健忘症"问题。通过语义结构化压缩、递归整合和自适应检索,该系统在LoCoMo基准测试中实现43.24的平均F1分数,比现有方法提升26.4%,同时将Token消耗降低30倍至530-580。其创新点包括:1)非线性门控过滤低信息量内容;2)多视图索引支持精确检索;3)动态调整检索深度。实验表明SimpleMem在准确率和效率上均优于7种基线方法,为长期对话AI提供了实用解决方案。
2026-01-09 21:12:00
1494
原创 “I love you“ 后面为什么是 “too“?一文读懂大语言模型的注意力机制
注意力机制:大语言模型的"思考"核心 摘要:注意力机制是Transformer架构的核心技术,它通过Query-Key-Value三元组让AI学会关注文本中的关键信息。当处理"I love you"时,模型将词语转换为向量,计算"you"的Query与上下文词的Key的匹配度,发现"love"相关性最高。通过Softmax归一化和加权混合Value向量,最终预测"too"作为最可能的后续词(92%概率)。这种
2026-01-08 17:32:24
1000
原创 AI也有“性格“?GPT-5.2 vs Claude Opus 4.5 个性大对决
AI模型展现稳定个性特征,Claude与GPT风格迥异 最新研究表明,大语言模型确实具有可区分的"个性"特征。Lindr团队通过系统化实验发现,GPT-5.2和Claude Opus 4.5展现出稳定的行为差异:Claude更具开放性(+4.5分)和好奇心(+3.7分),适合创意任务;而GPT更严谨尽责(+5.3分)且有进取心(+1.6分),适合结构化工作。研究创新性地采用行为分析而非自评测试,发现44.8%的个性差异源自模型本身,31.2%来自提示词,8.4%受上下文影响。这意味着选择
2026-01-08 17:14:55
930
原创 EXPLAIN:用实体摘要为RAG“开外挂“,让文档问答又快又准
**摘要增强检索技术EXPLAIN通过自动提取文档实体并生成结构化摘要,有效解决了RAG系统中的信息碎片化问题。该方法在保持低推理成本的同时,显著提升了问答准确率(HotpotQA F1从56.70提升至60.33)。核心创新在于:1)基于名词短语的通用实体提取;2)生成独立摘要项而非聚合摘要;3)用高相关性实体摘要替换低分文档片段。实验表明,该方法在多个基准数据集上优于传统RAG方案,且推理成本仅为长上下文方案的42%。
2026-01-06 22:23:21
909
原创 MegaBeam-Mistral-7B:扩展上下文而非参数的高效长文本处理
MegaBeam-Mistral-7B通过创新方法将7B模型的上下文扩展至512K tokens,成为首个无需RAG即可高效处理超长文本的开源模型。该研究采用四阶段训练流程:长上下文预训练(70%代码数据)、RoPE theta调优、bf16精度修复和长上下文SFT。系统级优化包括Ring Attention序列并行和XLA编译器调优,使单卡A100即可处理超长序列。论文源于AWS真实业务需求,在合规监控等场景展现优势,相比传统方案成本更低、部署更易。核心突破在于"扩展上下文而非参数"的
2026-01-06 19:59:10
644
原创 MedPlan: 基于两阶段RAG的个性化医疗治疗方案生成系统
MedPlan提出了一种基于两阶段RAG的个性化医疗治疗方案生成系统,通过模拟临床医生的SOAP诊断流程,显著提升了治疗方案的准确性和个性化水平。该系统首先基于患者主观症状和客观检查数据生成临床评估,再结合历史记录和相似病例生成治疗方案。实验表明,MedPlan在BLEU等指标上较基线方法提升约6倍,临床医生评估显示其方案质量提升66%。该系统已部署实际临床环境,采用React前端和FastAPI后端架构,为医疗AI领域提供了更符合临床实践的技术方案。
2026-01-06 19:43:49
882
原创 HierGR:美团外卖搜索的层级语义生成式检索系统
HierGR通过层级RQ-VAE生成语义ID,结合查询缓存和混合检索策略,在美团外卖场景实现了**复杂意图订单量+0.68%**的提升。
2026-01-06 19:33:49
992
原创 Hard Negative Mining: 面向企业RAG系统的领域特定检索优化框架
摘要:本研究提出Hard Negative Mining框架,针对企业RAG系统中的领域特定检索问题,通过多模型嵌入集成(6种双编码器模型)和PCA降维(保留95%方差)生成语义表示,创新性地采用双条件筛选策略选择高质量硬负样本。实验表明,该方法在企业内部数据集上MRR@10达到0.64,相比基线提升42%,且跨金融、气候等领域保持33-45%的性能提升。核心贡献包括:1)多模型互补表示解决语义不匹配;2)双条件选择策略提升负样本质量;3)高效PCA降维优化。局限在于长文档处理和跨语言支持,未来将探索分层嵌
2026-01-06 18:03:45
736
原创 DISCOG:知识图谱+LLM双引擎驱动的法律电子取证系统
DISCOG:知识图谱与LLM协同的法律电子取证系统 DISCOG创新性地将法律文档检索问题转化为知识图谱链接预测任务,结合图神经网络(GNN)与大语言模型(LLM)实现高效电子取证。该系统首先构建包含文档、主题、关键词和人员的异构知识图谱,通过GraphSAGE等GNN方法预测文档-主题关联关系,再使用GPT-3.5进行推理验证。在TREC Legal Track数据集上的实验表明,GraphSAGE模型取得0.83的F1分数,显著优于传统检索方法。实际部署中,该系统可节省98%的文档审查成本,为法律科技
2026-01-06 17:58:36
972
原创 ComRAG: 面向工业级实时社区问答的动态向量存储RAG框架
本文提出ComRAG框架,针对工业级实时社区问答系统面临的动态知识管理和历史交互利用问题,设计了一种基于三层向量存储的检索增强生成架构。该系统整合静态领域知识和动态历史问答,通过质心聚类机制实现高效内存管理,并采用自适应温度调优策略优化生成质量。在MSQA、ProCQA和PolarDBQA数据集上的实验表明,ComRAG在回答质量和处理效率上均优于现有方法,为工业部署提供了可行的解决方案。
2026-01-06 17:46:07
940
原创 CiteFix: 通过后处理引用校正提升RAG系统准确率
摘要 CiteFix提出了一种轻量级后处理方法,用于提升RAG系统中引用标注的准确性。研究发现,80%的不可验证事实源于引用归属错误而非幻觉。论文设计了六种校正算法,包括关键词匹配、BERT语义评分和注意力图复用等,形成从简单到复杂的解决方案谱系。实验表明,最优方法可将引用准确率提升至90%以上,同时保持毫秒级延迟。创新性地提出MQLA综合评估指标,严格衡量响应质量。该方法无需修改现有RAG架构,可直接部署于生产环境,为解决LLM引用可靠性问题提供了实用方案。
2026-01-06 17:30:31
395
原创 AUTOSUMM: 银行场景的LLM对话摘要与幻觉检测框架
本文提出AUTOSUMM框架,专为银行场景设计的大语言模型对话摘要系统。该系统通过两阶段处理流程(初步摘要生成与幻觉检测)确保金融对话摘要的准确性和可靠性。实验表明,AUTOSUMM在银行客服对话数据集上优于基线模型,有效减少25%的幻觉内容。该框架为金融领域对话系统提供了可解释、可验证的摘要解决方案,具有实际应用价值。
2026-01-06 17:11:47
1006
原创 18美元让AI智能体越用越聪明?腾讯优图开源的Youtu-Agent做到了
腾讯优图开源Youtu-Agent框架,以18美元低成本实现AI智能体持续进化。该框架采用三层架构设计,支持自然语言生成智能体配置,通过Workflow和Meta-Agent双模式实现81%工具合成成功率。创新性的Training-free GRPO技术仅需100样本和18美元成本,就能让智能体性能提升2.7%-5.4%,无需修改模型参数。实验显示其WebWalkerQA任务准确率达71.47%,为智能体开发提供了高效低门槛解决方案。
2026-01-06 13:07:44
1119
原创 SAGE:让AI智能体学会“积累经验“的强化学习新框架
SAGE框架提出了一种新型强化学习方法,通过构建"技能库"使AI智能体能够积累和复用经验。该研究由威斯康星大学麦迪逊分校和AWS团队合作完成,基于GRPO(Group Relative Policy Optimization)算法,创新性地将技能库与强化学习相结合。传统LLM智能体面临经验无法积累、效率低下等问题,而SAGE通过统一技能表示格式和Sequential Rollout机制,使智能体能够像人类一样存储和调用已学技能。实验表明,该方法显著提升了智能体的任务执行效率和适应性,为A
2026-01-04 00:51:58
782
原创 DeepSeek开年王炸:mHC架构——用流形约束重构残差连接的革命性突破
标准残差连接之所以稳定,关键在于其恒等映射特性:当变换函数FF输出为零时,信号可以无损地通过。通俗理解:这就像一个"安全阀"——如果某一层不知道该怎么处理信息,它可以选择"什么都不做",让信息原样通过。xl1xl0xlxl1xl0xl网络可以"安全地"增加深度,最坏情况也只是多几个"什么都不做"的层训练初期,网络可以先保持恒等映射,然后逐渐学习有用的变换在数学中,**流形(Manifold)**是一个局部看起来像欧几里得空间的几何对象。听起来很抽象?
2026-01-04 00:46:04
1078
原创 UAE:让AI的“理解“与“创作“相互成就的统一多模态框架
UAE(Unified Auto-Encoder)框架首次证明:AI的"看图说话"能力和"文字作画"能力不仅可以共存,更能相互促进——理解越强,生成越好;生成越好,理解越强!看图说话(理解能力):看一张照片,告诉你"这是一只橘猫正在阳台上晒太阳"文字作画(生成能力):听你说"画一只橘猫在阳台上晒太阳",然后画出来这种同时具备"理解"和"生成"能力的AI,就叫做统一多模态模型(Unified Multimodal Model, UMM)。
2026-01-04 00:25:08
646
原创 阶跃星辰重磅发布:32B参数模型如何实现“深度研究“自动化?
阶跃星辰发布32B参数Step-DeepResearch模型,实现深度研究自动化。该技术可将行业调研报告生成成本降至0.5元,大幅提升研究效率。模型通过智能搜索、信息整合与交叉验证,完成原本需要数天的人工研究任务。这一突破性技术将重塑专业研究领域的工作方式。
2026-01-04 00:16:10
392
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅