- 博客(146)
- 资源 (7)
- 收藏
- 关注
原创 Claude Code 访谈 Loop Engineering 介绍
本文探讨了AI编程从"提示工程"向"循环工程"的范式转变。循环工程的核心是用自动化系统替代人工提示AI,通过定义目标让AI持续迭代完成任务。文章详细介绍了构建循环的五大组件:自动化机制、工作树隔离、技能存储、插件连接和子代理审查,并指出循环工程面临的三大挑战:验证责任、理解力负债和认知投降风险。作者强调开发者应该平衡使用循环工程与保持对代码的理解,认为循环工程是未来工作方式的预演,但提醒过度依赖自动化可能导致质量下降。关键在于设计循环时保持工程师思维,而非完全放弃对代码的控制权。
2026-06-11 15:09:12
224
原创 AI造词--让你学不动的Loop Engineering 又来了
AI编程范式迎来新变革:循环工程(Loop Engineering)正引发热议。这一概念标志着AI编程从单轮提示词工程(Prompt Engineering)向自动化循环系统的跃迁,开发者不再逐轮输入提示词,而是设计能自主调度、验证和迭代的AI系统。核心特点包括反馈机制、会话上下文保留、硬停止条件和多组件协同架构,适用于CI/CD修复、依赖管理等边界明确的任务。然而,该技术仍面临token成本高、调试困难等挑战。最终责任仍需人类工程师把关,体现了AI与人类协同的演进方向。
2026-06-11 15:08:09
106
原创 DeepSeek 大模型落地应用与场景探讨
企业AI应用转型指南:从知识管理到私有化部署 本文系统梳理了大语言模型在企业中的十大核心应用场景,涵盖知识管理、代码生成、营销创作、文档解析、跨语言沟通、教育辅导、数据分析、客服优化、创意策划等领域。重点突破传统效率瓶颈,通过RAG架构、多轮对话设计、长文档分析等技术方案,实现业务场景的智能化升级。针对企业关注的隐私问题,详细介绍了基于开源模型的低成本私有化部署路径,包括模型量化、容器化封装和效果评估体系,形成"选型-部署-验证"闭环。无论是技术团队还是业务部门,都能找到适配自身需求的AI转型方案,在保障数
2026-06-10 16:32:26
128
原创 CRISP 五要素的高效构建策略
摘要: CRISP模式是提升AI编码效率的核心方法,通过**Context(上下文)、Role(角色)、Issue(问题)、Scope(范围)、Preference(偏好)**五要素结构化需求,确保AI精准理解并生成可验证方案。 关键点: 上下文需明确技术栈、版本及架构特点; 角色定义越具体,AI越能调用专业知识; 问题用“When-Then-But-Should”模板描述,附错误日志; 范围限定最小修改域,避免无关改动; 偏好设定技术约束与优先级。 实践建议: 使用模板化输入,结合分步对话与代码片段增强理
2026-06-10 16:21:04
261
原创 CRIPS的工程化开发方法六大典型问题的处理
CRISP 不是填空题,而是工程思维的结构化表达。常见问题的本质,是人类模糊认知与 AI 精确执行之间的鸿沟。通过模板化输入、要素交叉验证与强制约束声明,可将这一鸿沟转化为高效协作的桥梁。
2026-06-10 16:19:46
304
原创 解决人力瓶颈,让AI Coding 高效迭代的五点建议
摘要 本文针对AI编程中"生成快但验证慢"的瓶颈问题,提出五点工程化建议:1)用标准化规格(如Gherkin语法)替代模糊需求描述;2)建立分层审核机制,让AI自带测试交付并自审代码;3)构建自动化验证体系,实现一键测试;4)沉淀项目规则和修正经验形成复利资产;5)重构协作模式,让人专注于关键决策而非具体实现。这些方法通过将一次性工作转化为可重复利用的工程资产,显著提升AI编程效率和质量,使开发者从低效验证中解放出来,实现持续的技术积累。核心在于建立"复利式工程"思维,让每次开发都为下一次迭代铺路。
2026-06-10 02:55:46
395
原创 小米 MiMo-V2.5系列API永久降价的技术分析(一)
小米MiMo-V2.5系列模型通过五大核心技术突破实现API价格大幅降低99%,核心在于Hybrid SWA+MoE混合架构设计及全链路推理优化。其采用1:7稀疏注意力比例,将计算复杂度从O(n²)降至近O(w*n),并通过KVCache双池分治、分布式缓存等技术将存储需求压缩至行业1/7。尤其在长上下文场景中,KVCache优化显著降低显存占用和多级存储数据搬运成本,使得推理成本降至行业平均水平的1/7,实现降价仍保持收支平衡。该技术突破推动了大模型行业整体成本下降趋势。
2026-06-10 02:54:08
170
原创 小米 MiMo-V2.5系列API永久降价的技术分析(二)
摘要(149字) 小米MiMo-V2.5-Pro通过1:7 Full:SWA混合注意力架构(15%全局头+85%局部头)降低长文本计算复杂度,理论计算量减少85%-95%。结合五维全链路优化(KVCache分治、SWA-aware前缀树、GCache分布式缓存等),实现存储效率提升7倍、缓存命中率93%。依托国产芯片软硬协同(平头哥810E等)和政策支持,构建"技术降本→用户增长→缓存命中率提升"的商业闭环,奠定API低价基础。核心创新在于激进稀疏比设计与国产化算力协同,突破Transformer长文本瓶颈
2026-06-09 01:22:26
513
原创 MiniMax 今日正式发布M3模型支持1M上下文
MiniMax正式发布新一代大模型M3,支持100万token上下文窗口,采用稀疏注意力架构(MSA),预训练数据规模达100T+。M3具备原生多模态能力,在代码生成、智能体任务处理方面表现突出,BrowseComp测试得分83.5,超过Opus 4.7(79.3)。其亮点包括:1)原生多模态架构;2)支持超长上下文处理;3)强大的自主任务能力,如独立完成论文复现和工业级代码优化。M3整体性能略低于Claude Opus 4.7和GPT-5.5,但在部分指标上超越国际水平,是目前开放权重模型中能力最全面的选
2026-06-01 16:09:49
308
原创 DeepSeek-Reasonix 的极致省钱之道
通过缓存和纠偏等多重手段降低AI大模型调用成本,这个作者的思想是我们在做AI应用或工具上可以很好的借鉴。比如:深入理解底层 API 的计费和技术细节(如缓存机制),是构建高性价比应用的关键。一个设计精良的 Agent 框架,其核心在于管理状态、上下文和不确定性,而不仅仅是调用模型。
2026-05-29 09:38:05
403
原创 2026 国内 七大 AI 大模型定价全对比
这篇文章详细对比了2026年国内七大AI大模型的定价策略,包括智谱AI(GLM)、稀宇科技(MiniMax)、小米(Mimo)、月之暗面(Kimi)、阿里云(Qwen)、腾讯(混元)和字节跳动(豆包)。文章从API按量计费、Coding Plan订阅套餐、免费额度和资源包方案四个维度进行分析,重点展示了各厂商的主力模型矩阵和价格体系。值得注意的是,大模型API价格已进入"厘钱"时代,不同模型的选择可能带来数十万的年成本差异。各厂商都推出了针对不同使用场景的模型版本和订阅套餐,开发者需要根
2026-04-27 09:19:24
7816
原创 4月国内外十款新发布AI模型 参数和价格对比
【摘要】4月AI模型发布密集,国内外厂商在性能与价格上展开激烈竞争。国产模型如DeepSeek V4系列、GLM-5.1等普遍采用MoE架构,Qwen3.6、DeepSeek V4等支持百万tokens超长上下文。价格方面,国产模型优势明显,Qwen3.6 plus输入低至2元/百万tokens,hy3-preview仅1.2元。国际厂商如GPT-5.5、Claude Opus 4.7保持高价策略,但国产模型在基准测试中已接近国际水平。4月23-24日成为发布高峰,行业竞争日趋白热化。(149字)
2026-04-27 09:18:52
643
原创 GLM-5.1 vs Qwen3.6 Plus vs MiniMax M2.7:2026 年三大国产旗舰模型深度横评
2026 年的 AI 大模型战场,国产模型已经不再是追赶者,而是在多个关键赛道上与 OpenAI、Anthropic、Google 三巨头正面交锋。过程模型虽然与头部的差距,没有之前那么大。
2026-04-20 14:52:16
2066
原创 github上 160K star 的 superpowers 插件使用经验与场景总结
首先这个plugin 是一个工程化辅助的很好的一个插件,它并不是无所不能,在主流的开发领域使用的人会更多一点,通过工程化的规则和方法约束AI在coding Agent 上能表述和实现的更准确。
2026-04-20 14:48:45
1339
原创 Harness Engineering:用规则约束AI的方向
摘要: AI领域概念迭代迅猛,继Prompt、Context Engineering后,又出现Harness Engineering(驾驭工程),本质是为AI系统构建“缰绳”以提升效能。OpenAI等案例显示,优化系统提示、工具配置等“驾驭”手段,可使同一模型性能跃升(如LangChain代理准确率提升13.7%)。其核心包含上下文工程、架构约束和自检机制,但AI生成代码的可维护性仍是隐忧。实践建议:提供结构化上下文、动态积累规则、引入AI交叉验证。未来需将隐性知识显性化,通过闭环反馈优化AI产出质量。
2026-03-30 12:56:20
586
原创 向cluade学习如何在实际项目中配置AI规则
文章摘要:本文介绍了cluade项目的配置实践方法。项目级配置通过.cluade文件和CLAUDE.md实现团队协作,包含构建命令、架构决策等关键信息;个人偏好则存储在~/.claude/目录。文章建议采用渐进式配置步骤,从基础设置开始逐步扩展,并介绍了模块化的rules/文件夹、确定性的hooks系统、可重用工作流的skills/文件夹以及专业化的agents/文件夹。最后强调了settings.json文件在权限控制和项目配置中的核心作用。
2026-03-30 09:58:07
787
原创 ARC-AGI-2:抽象推理与泛化能力的终极测试
《ARC-AGI-2:新一代AI抽象推理基准测试》 摘要:ARC-AGI-2是评估AI系统抽象推理与泛化能力的权威基准,通过网格变换谜题测试模型在全新问题上的适应能力。该基准包含1200个独特任务,采用Pass@2评估机制,要求模型在两次尝试内解决未见过的测试对。最新评测显示,顶级模型如GPT-5.2仅达54%准确率,远低于人类60-66%的表现。与传统知识型基准不同,ARC-AGI-2专注流体智能评估,具有强抗过拟合特性,已成为行业公认的AGI发展关键指标。尽管存在视觉符号偏向等局限,其严格的防作弊设计和
2026-03-28 20:22:41
463
原创 GDPval-AA Elo:基于Elo评分的专家级任务评估
GDPval-AA代表了AI能力评估的重要演进。通过其经济上有价值的任务、盲比较Elo评分和动态更新机制,它提供了比传统静态基准更准确、更相关的模型能力相对排名。Elo系统提供动态相对排名,优于静态绝对分数盲评估防止偏差,确保公平比较冻结评分确保稳定性,避免频繁重新评估Claude Sonnet 4.6的显著改进(1633 Elo)显示推理效率提升经济价值焦点区分GDPval与学术基准经济上有价值的任务是AI能力的真实测试动态评估反映快速模型演进Elo系统为持续比较提供可靠框架。
2026-03-28 20:21:59
650
原创 创业巨坑指南--研发自救指南
【摘要】本文探讨了大厂研发与中小企业研发在工程质量上的关键差异。大厂通过严格筛选和体系化训练,培养出具备扎实理论基础、全局系统思维和强责任意识的工程师,能够从源头减少系统故障。相比之下,预算有限的中小企业常被迫选择"性价比"候选人,却面临基础薄弱、质量意识欠缺等隐形风险。文章建议中小企业即使无法招募大厂人才,也应通过实操测试、故障排查考核等方式,重点考察候选人的工程质量意识和严谨性,避免陷入后期高额维护成本的困境。核心观点是:优秀工程师的特质往往是与生俱来的,而非后期能轻易培养的。
2026-03-25 23:38:56
452
原创 AI Coding Plan 模式实践小结
本文总结了优化AI辅助开发中Plan模式的系统性方法,提出通过输入优化、过程控制和输出验证三个维度提升规划质量。输入阶段采用CRISP原则构建清晰提示;过程控制强调分阶段输出和领域知识注入;输出验证要求生成可测试的验收标准并映射代码位置。文章还分享了结合GLM-4.7特性的进阶技巧,最终形成一套可显著提升任务规划质量的完整方法论,为后续开发奠定坚实基础。
2026-03-25 17:17:09
1419
原创 NVIDIA DLSS 5技术要点、前景及英伟达重大技术革新解析
AI 时代最好的应用是将AI技术融入到主流工具应用中,做自动化和智能化相关的集成。从前年(或许更早)开始就与不少大公司申请政府补贴项目,将AI的学习、识别、分析理解、响应决策等融入到自家的产品或系统中。看了英伟达官网的文档说明,场景识别光线条件,并优化渲染效果与材质融合,清晰度和还原逼真度都有很大幅度的提升。大家也可以看到最近几个月文生图、图生图、文生视频等各类技术也是有了很大进步,基于游戏场景对构建真实世界效果确实是一个不错的方向。上图是 DLSS OFF的效果,从人物模型效果、图像背景深度效果、人物光影
2026-03-19 09:00:00
900
原创 Agent Teams 在 OpenCode 中的实现(一)
本文分析了Claude Opus 4.6的Agent Teams多智能体协作系统及其在OpenCode平台中的实现方案。Claude的Agent Teams采用分布式架构,支持并行执行、独立上下文和协调通信等特性,适用于代码审查、多领域研究等复杂任务。OpenCode通过四层金字塔架构(Agents、Skills、Tools、Rules)实现类似功能,提供任务编排、流程标准化和底层执行能力。两者对比显示,OpenCode在灵活性和扩展性方面具有优势,而Claude在原生集成和易用性上更胜一筹。文章还提供了实
2026-03-19 08:00:00
1082
原创 Agent Teams 在OpenCode 上的应用实践(三)
Claude Opus 4.6推出Agent Teams功能,支持任务规划与子代理协作,具备开箱即用的通信机制和生命周期管理。相比OpenCode,Agent Teams适合快速开发但成本较高,而OpenCode更灵活且成本低廉,支持本地部署。最佳实践包括明确任务边界、合理拆分任务、设置审批阈值和周期性清理上下文。OpenCode用户可充分利用工具层、合理选择分类和技能,并利用规则层强制约束。性能优化建议并行处理任务、根据复杂度选择经济模型,并精简上下文信息。
2026-03-18 09:40:40
603
原创 我们如何使用好AI工具的技能 (Skills)
摘要: 本文探讨了如何有效利用AI工具中的"技能"(Skills)功能,重点介绍了Claude Code/Open Code等平台中技能的分类与最佳实践。技能作为灵活的扩展点,可分为9类:库与API参考、产品验证、数据获取与分析、业务流程自动化、代码脚手架、代码质量审查、CI/CD部署、操作手册和基础设施运维。文章强调技能制作应避免冗余信息,建立"陷阱"规则,利用文件系统实现渐进式披露,并保持灵活性。同时建议通过Skill Creator等工具优化技能开发流程,结合具
2026-03-18 09:39:39
647
原创 基于 Trae + 国产 GLM-4.7模型的任务驱动式软件开发实践
本文介绍了基于Trae平台与国产GLM-4.7大模型的AI辅助开发实践。通过"Plan+@SOLO Coder"双阶段工作流,将模糊的"小程序AI试衣时序异常"问题转化为结构化任务:Plan模式下利用GLM-4.7进行问题建模与任务分解,@SOLO Coder模式下实现精准代码重构。实践表明,合理使用提示词和任务分解方法,国产模型在代码理解与逻辑推理方面表现优异,能有效降低开发认知负荷,建立标准化AI辅助开发范式。关键在于将人的监管与AI能力有机结合,而非单纯比较模型
2026-02-24 10:00:00
1072
原创 Multica 与 Claude Cowork:多代理桌面应用深度对比
专注文件管理和知识工作自动化内置 Claude,不依赖外部代理强大的文件操作和浏览器自动化适合完全非技术的用户Multica专注多 AI 编码代理的协调支持多个后端代理,灵活性高强大的会话管理和代理切换适合开发者和技术用户Claude Cowork 和 Multica 虽然都是降低 AI 工具使用门槛的桌面应用,但它们的定位、功能和适用场景有显著差异。Claude Cowork 的定位面向完全非技术的知识工作者专注文件管理和任务自动化。
2026-02-24 09:00:00
3070
原创 Cowork 开源平替 OpenWork:打破 AI 协助垄断
在 AI 快速发展的今天,选择变得重要。是选择一个封闭、昂贵但 polished 的产品,还是支持一个开放、免费但仍在成长的社区项目?OpenWork 提供了第二种选择。它证明了 AI 代理不必是黑盒,隐私和便利可以共存,开源社区可以构建商业级的产品。如果你重视数据控制、喜欢折腾、或者只是想探索 AI 代理的无限可能,OpenWork 值得一试。
2026-02-23 14:10:34
1226
原创 Qoder 2026 开年双重突破:毫秒级补全与自主编程进化
100ms 是"即时响应"的边界,400ms 是生产力下降的拐点,超过 1 秒会让用户烦躁。代码补全场景对延迟更为敏感——它高频触发、心流易断,还在与手动输入竞争。用户打字的间隔大约是 200-400ms,如果补全能在 300ms 内返回,就能确保在下一次击键前展示结果,同时为网络波动预留缓冲。这就是 Qoder 设定的体验红线。AI 辅助编程经历了三个阶段:代码补全、结对编程、自主编程。代码补全:AI 补全代码片段,用户逐行确认结对编程:AI 重构逻辑,但调试、处理报错仍然是人的工作自主编程。
2026-02-23 14:09:04
934
原创 开发利器 openCode + Oh My OpenCode 四大核心智能体:Sisyphus、Prometheus、Atlas 与 Hephaestus
Oh My OpenCode是基于OpenCode的多智能体协作插件,最新3.2.1版本包含四大核心智能体:Sisyphus(默认主智能体,负责架构规划)、Prometheus(知识检索专家)、Atlas(上下文管理者)和Hephaestus(新增的工匠型执行者)。这些智能体各司其职,协同完成从架构设计到代码生成的全流程开发任务。该工具支持多仓库结构、20+自动化Hooks和完整LSP支持,通过模块化工作流实现高效开发。安装简单,可直接通过命令行安装OpenCode和Oh My OpenCode插件后使用。
2026-02-23 14:05:10
2181
原创 MCP-Atlas:首个大规模 AI 模型工具使用基准测试详解
MCP-Atlas是首个专注于评估AI模型工具使用能力的大规模基准测试平台,包含1000个评测任务,覆盖36个服务器和220个工具。该平台采用claims-based自动化评分机制,将任务划分为5大业务领域进行测试。最新评测显示顶级模型通过率仅60%左右,工具使用错误是主要失败原因(占比56.7%)。该基准为开发者提供了模型选型参考,并揭示了工具使用能力仍是当前AI的核心瓶颈,建议开发者针对不同领域需求选择模型,并建立完善的失败处理机制。
2026-02-23 14:04:16
898
原创 GLM-5:智谱新一代旗舰基座模型【简介】
智谱AI发布新一代旗舰基座模型GLM-5,在参数规模(744B)、训练数据(28.5T)和算法架构上全面升级。该模型专为Agentic Engineering设计,具有200K上下文窗口和128K最大输出能力,在Coding和Agent任务上达到开源SOTA水平。采用异步强化学习框架和稀疏注意力机制,支持多种核心功能如工具调用、结构化输出等。在编程能力测试中超越Claude Opus 4.5,适用于智能体开发、办公自动化等场景。目前提供7天免费体验卡和限时折扣。
2026-02-21 14:51:21
284
原创 三大模型深度对比:Zhipu GLM-5 vs MiniMax M2.5 vs Qwen3-Coder-Next
中国三大AI模型对比分析:智谱GLM-5、MiniMax M2.5和阿里Qwen3-Coder-Next各具优势。GLM-5以744B参数和200K上下文窗口成为旗舰级通用Agent;MiniMax M2.5在编程测试SWE-Bench中80.2%的成绩领先,且API成本最低;Qwen3-Coder-Next作为轻量级开源模型,以70%+的成绩和3B激活参数展现高效性。GLM-5适合复杂系统工程,MiniMax M2.5在成本敏感场景表现优异,Qwen3-Coder-Next则适合本地部署。
2026-02-21 14:47:39
6222
原创 Gemini 3.1 Pro 发布,12项核心基准测试能力夺得第一
Google发布Gemini 3.1 Pro,显著提升AI推理能力 2026年2月19日,Google推出Gemini 3系列最新升级版3.1 Pro,专注于解决需要深度推理的复杂任务。该模型在ARC-AGI-2基准测试中取得77.1%的成绩,推理性能较前代提升两倍以上。3.1 Pro支持代码动画生成、复杂系统综合、交互式设计等应用场景,能将文本提示直接转换为网站就绪的SVG动画,并构建实时航空航天仪表盘等复杂可视化系统。 目前3.1 Pro已在Gemini API、Vertex AI、Gemini app
2026-02-21 14:46:09
963
原创 MiniMax M2.5深度评测详解:更快更强更智能
摘要 MiniMax于2026年2月发布新一代生产力导向文本模型M2.5,在编程、工具调用和办公场景表现卓越。该模型采用创新的Forge RL强化学习框架,实现40倍训练加速,在SWE-Bench Verified测试中达到80.2%准确率。M2.5具备架构师级的系统设计能力,支持10+编程语言的全栈开发,搜索效率提升20%。相比前代,任务完成速度提升37%,成本仅为竞品的1/10-1/20。M2.5已应用于MiniMax公司30%的日常运营任务,其中80%的新提交代码由其生成。该模型以100 tokens
2026-02-18 23:34:20
4263
原创 Qwen 3.5在 除夕夜发布,超低价格的397B总参数模型
阿里云发布新一代大语言模型Qwen 3.5,采用混合注意力机制和稀疏MoE架构,总参数397B但仅激活17B,宣称性能媲美Gemini 3,API价格仅为后者的1/18。官方测试显示其在数学和代码能力上显著提升,但开源社区反馈两极分化:开发者认可其性价比和开源策略,但也指出其通用知识下降、多模态体验不稳定等问题。技术分析显示MoE架构有效降低了推理成本,但知识-能力平衡仍是挑战。与GPT-5.2等闭源模型相比,Qwen 3.5在价格和开源方面优势明显,但在复杂推理和实时性上仍有差距。
2026-02-18 22:45:59
2215
原创 Claude 今天发布了 Sonnet 4.6, 深度对比:sonnet vs Opus,如何选择最适合你的模型?
Anthropic推出的Claude 4.6系列包含旗舰级Opus和平衡型Sonnet两款模型。Opus 4.6在深度推理、代码代理能力和长上下文处理上表现卓越,适合高风险复杂任务;而Sonnet 4.6以仅Opus五分之一的价格提供接近旗舰的性能,在用户偏好度、日常开发任务和文档理解方面表现突出。关键差异在于Opus更适合多代理协调和关键系统重构,Sonnet则胜任80%日常场景。优化策略包括Prompt Caching节省90%成本、批处理API和动态调整推理深度。选择时需权衡任务复杂度、失败成本和预算
2026-02-18 22:43:31
9114
6
原创 Kimi K2.5 深度分析:1万亿参数多模态智能体的技术突破
Kimi K2.5深度解析:万亿参数多模态模型的突破与局限 摘要:Moonshot AI发布的Kimi K2.5模型在技术上实现了多项突破,包括256K上下文窗口、384个专家模块的MoE架构及原生多模态支持。该模型在数学视觉理解(MathVista 90.1%)和视频分析等任务中表现突出,Agent Swarm模式使复杂任务处理效率提升29.4%。但实际工程应用中,其代码生成能力(SWE-Bench 76.8%)仍略逊于Claude 4.5,且长文档处理优势有待验证。当前版本虽参数规模庞大,但对开发者而言
2026-02-13 20:08:15
2580
原创 Agent Teams 在OpenCode 上的应用实践(三)
Claude Opus 4.6推出Agent Teams实现多智能体协作,提供内置通信机制和生命周期管理。OpenCode通过四层架构(Agents+Skills+Tools+Rules)提供更灵活的定制方案,支持本地部署和成本优化(仅为Claude的2-20%)。最佳实践建议:明确任务边界、合理拆分任务、设置审批阈值、优化上下文管理。Claude适合快速原型开发,OpenCode更适合需要定制化、成本敏感或本地部署的场景。随着AI发展,多智能体系统将具备更智能的协调机制和更强的可观测性。开发者建议从小任务
2026-02-13 18:37:13
2231
原创 Agent 记忆系统标准方案为何失效
开发者Rohit提出AI记忆系统设计新范式:记忆是基础设施而非功能。文章剖析了传统方案的失效原因(对话历史截断/向量检索矛盾),提出分层记忆架构:短期记忆采用检查点机制,长期记忆通过自组织文件系统或上下文图谱实现,强调写入处理、冲突解决和定期衰减维护。指出五大设计错误,建议将Agent视为操作系统管理记忆(RAM/硬盘/垃圾回收)。核心观点在于记忆需要结构化组织与主动维护,而非简单存储。
2026-02-12 01:52:07
486
原创 Agent 记忆系统的标准方案为什么会失败?
摘要: 本文探讨了AI Agent记忆系统的设计挑战与解决方案。作者指出当前常见的对话历史存储和向量数据库检索存在局限性,提出了短期记忆的检查点机制(Checkpointing)和两种长期记忆架构:基于文件的自组织系统和混合图谱(Hybrid Graph)。系统通过主动处理信息、分层检索、冲突解决和智能遗忘机制,确保记忆的准确性和时效性。文章强调记忆是基础设施而非功能,建议将Agent视为操作系统,分层管理记忆,避免常见错误如存储原始对话或盲目依赖嵌入向量。最终目标是构建能真正理解用户需求的数字伙伴,而非简
2026-02-12 01:50:57
1125
zencoding visio studio 2010
2013-01-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅