- 博客(604)
- 资源 (2)
- 收藏
- 关注
原创 大厂企业级 AI Agent 实战:从“工具助手”到“数字员工”的自动化演进
通过将繁琐的、低价值的“搬砖”工作交给 AI(完成 90% 的工作量),技术团队得以从 endless 的工单和报警中抽身,专注于架构设计与业务创新。随着大模型技术从“闲聊”转向“业务交付”,企业面临的核心挑战是如何将非结构化的 AI 能力融入结构化的业务流中。本案例基于大厂工程师在数据治理、工单运维等复杂场景的实战经验,提出了一套“感知-决策-执行”的 AI 闭环架构。好了,这就是我今天想分享的内容。:在高风险的企业环境中,必须建立“策略保守”、“输出结构化”和“多层校验”的工程护栏。
2026-01-12 12:53:22
612
原创 技术深度重构:去中心化的上下文工程落地实践
这种机制将不确定的自然语言交互转化为精确的“强类型契约”,彻底杜绝了格式错误,实现了 Agent 间零误差的高效协作。这种设计如同清理手机内存,先存缩略图,再把原图导出的双重保险,确保模型在发现摘要信息不足时,拥有随时回读备份文件的“后悔药”,从而实现了记忆的高效压缩与无损召回。模型无需在上下文中检索繁杂的 API 文档,而是通过 Bash 指令像程序员一样在终端按需调用,这种“首屏只留终端,应用按需调用”的设计,在保持上下文轻量化的同时,赋予了 Agent 无限且有序的能力扩展空间。
2026-01-11 08:01:15
733
原创 大厂智能客服 Agent:多轮对话系统设计方案
记录的不仅仅是对话文本,而是结构化日志:Input -> Intent(Confidence) -> Slot_Change -> Tool_Call(Params/Result) -> Policy_Decision -> Output。设计的核心目标是将高不确定性的用户输入,通过多轮交互,收敛为确定的、安全的、可回滚的业务指令。优秀的智能客服 Agent 不是一个“能言善辩”的聊天机器人,而是一个披着对话外衣的、严谨的业务工作流 AI 智能体系统。如退款、销户、涉及敏感隐私。需要区分“状态”的类型。
2026-01-10 08:03:55
811
原创 智能体工程10大工程维度深度解析:从 Demo 到生产级系统的跨越
不仅仅是技术栈的堆砌,更是业务准入的门槛。未来的竞争将从“谁的模型更聪明”转向“谁的 Agent 系统更抗造、更可靠、更安全、更可控”。打造 Demo 仅需 20% 的精力,而构建可靠的生产级系统需要解决剩下 80% 的工程挑战。好了,这就是我今天想分享的内容。:出了问题只能靠猜。:Agent 具有自主行动力(Action),一旦越权或被注入,风险远高于传统只读应用。:LLM 是概率模型,存在“不确定性 + 自信的幻觉”。:缺乏边界管理的记忆会导致 Agent 被过载的信息误导,引发跨用户污染或逻辑错乱。
2026-01-07 08:01:29
574
原创 重构 AI 编码:从“氛围编程”到规范驱动开发 (SDD)
它像“最高法律”一样,定义了项目中所有代码必须遵守的非功能性需求(如:“所有时间必须用 UTC 存储”、“禁止使用 any 类型”)。将技术计划拆解为原子化的、AI 可独立执行的步骤(例如:“创建数据库迁移文件”、“更新 API 路由”)。:AI 选择了“最可能”的实现,而非“最正确”的架构。,它比 Spec Kit 更强调“意图理解”和“结构纠偏”,适合解决“AI 瞎写”的问题。2026年,开发者的核心竞争力不再是手写代码的速度,而是设计规范的能力。此阶段是确定性的执行,因为前三步已经锁定了路径。
2026-01-06 08:00:35
399
原创 智能体迈入 Agent RL 新架构时代
这意味着,依赖蒸馏技术的企业与顶尖模型的差距将持续拉大,构建自主的 RL 基建、专属数据与核心算法,成为唯一的破局之道。Slime 框架堪称 Agent 时代的标杆之作,其核心优势在于实现了 Agent 框架与 RL 框架的解耦,通过 RadixTree 技术确保多轮对话 logits 的准确性,并已在 GLM 百亿参数模型上完成了 Scaling 验证。我们需要清醒认知在工程与科研上与顶尖模型的真实差距,看透指标背后隐藏的技术本质,坚持长期主义投入,真正的技术红利,往往伴随着长延迟反馈。
2026-01-05 08:03:43
969
原创 AI Agent 记忆系统:从短期到长期的技术架构与实践指南
当前,各框架内置的上下文处理策略(压缩、卸载、摘要等)已能满足 80%-90% 的通用场景需求,但在医疗、法律、金融等专业领域,仍需基于通用策略进行针对性优化,包括精细化的压缩算法与 Prompt 设计。该系统赋予 AI Agent 类人记忆能力:既能在单次对话中维持上下文连贯性(短期记忆),又能跨会话沉淀用户偏好、交互历史与领域知识(长期记忆),不仅显著提升了用户体验的连续性与个性化水平,更为打造更智能、更实用的 AI 应用筑牢了基础。:利用 LLM 对整段内容进行概括总结,提取核心信息,丢弃次要细节。
2026-01-04 09:02:27
1003
原创 2026年企业智能体落地,至少90%都是软件工程(智能体工程)
智能体生态系统总体架构设计包含14层,从下到上分别为:CPU/GPU 提供商层、基础设施/基础层、数据库、ETL(提取、加载、转换)层、基础模型层、模型路由层、智能体协议层、智能体编排层、智能体认证层、智能体可观测层、工具层、认证层、记忆层、前端层等。CPU/GPU 提供商层、基础设施/基础层、数据库、ETL(提取、加载、转换)层、基础模型层、模型路由层、AI 智能体协议层、AI 智能体编排层、AI 智能体认证层、AI 智能体可观测层、工具层、认证层、记忆层、前端层。定义智能体之间的交互和通信方式。
2026-01-03 08:02:00
719
原创 2026年智能体工程(Agent Engineering)是下一步演进的重要技术方向
所有人都明白,强化智能体的核心工作,在于通过观察生产环境中的行为,并基于所学进行系统性优化,这是一个循环往复的过程。如今,那些能够稳定部署智能体的组织,都在拓展工程、产品和数据团队的技能边界,以满足非确定性系统的需求。综上所述,智能体能够运行具有高影响力的实际工作流,但同时其行为问题是传统软件无法解决的,这既带来了机遇,也催生了对新兴技术的需求。首先设计智能体的核心架构,无论是带工具调用的简单大语言模型调用,还是复杂的多智能体系统。要打造可靠的智能体系统,部署是学习的过程,而非学习后的结果。
2026-01-02 08:00:19
978
原创 2026 年,企业如何构建 AI 智能体?
超过半数(57%)的组织目前已部署智能体用于多阶段工作流,其中 16% 的组织借助智能体开展跨团队的跨职能流程。2026 年,81% 的组织计划进军更复杂的应用场景,包括 39% 的组织将开发用于多步骤流程的智能体,29% 的组织会部署智能体支持跨职能项目。企业对此展现出的热情恰恰说明,规模更大的企业通常掌握着更多数据,面临更复杂的报告需求,也有更多人员在从事可由智能体提速乃至完全自动化的分析工作。90% 的负责人表示,智能体正在改变团队的工作模式,员工不再专注于常规执行工作,而是将更多时间投。
2026-01-01 08:04:03
750
原创 Manus 卖了几百亿,AI “套壳“”产品的护城河在哪里?
若你对 “AI 套壳产品(AI Wrapper)” 的概念仍感陌生,可参考这一定义:这是一个带有贬义色彩的术语,特指利用现有 AI 大模型或 API 提供特定功能的轻量级应用或服务,其开发投入少、技术复杂度低。即便开发工具仅能提升数个百分点的生产力,释放的商业价值也高达数十亿美元,这使得该领域成为模型厂商与拥有成熟分发渠道的巨头必争之地。用户在使用产品过程中的纠正与修改操作、特殊使用场景、对 AI 输出的采纳 / 确认 / 批准行为,以及评分、评论、标注等交互中隐含的偏好信号,都会形成独特的训练数据。
2025-12-31 08:02:04
732
原创 Anthropic 揭秘:如何让智能体连续工作数天不掉线?
不过也有遗憾:比如 Claude 的视觉识别能力有限,浏览器自动化工具也不是万能的,它没法通过 Puppeteer MCP 看到浏览器原生的警告弹窗,结果依赖这些弹窗的功能就容易出问题,这也是后续要优化的点。还好我们想到了办法:搞了个双重解决方案,让 Claude Agent SDK 能在多个上下文窗口里顺畅干活,一个初始化智能体负责开局搭好环境,另一个编码智能体负责每次会话都往前推进一步,还得给下一波 “接手的” 留下清晰的 “工作笔记”。这些方法也不是凭空想的,都是从高效软件工程师的日常工作里学来的。
2025-12-30 08:02:51
686
原创 更换嵌入模型,RAG 延迟直降 50%
此前采用的 OpenAI text-embedding-3-small 模型,虽在通用语义相似度任务中表现稳健且价格亲民,但 1536 维的向量尺寸带来了显著瓶颈:随着用户规模与知识条目增长,高维向量导致内存占用、磁盘使用量及查询 I/O 负载剧增,不仅推高了存储与带宽成本,更成为影响检索速度的关键障碍。Voyage 3.5 Lite 专为检索场景设计,恰好帮助 MyClone 在 “轻量级检索架构” 与 “高保真知识锚定” 之间找到了完美平衡,既满足了用户对交互效率的需求,又保障了回答的准确性与一致性。
2025-12-29 08:02:20
919
原创 Andrej Karpathy AI 程序员论爆火,1000万人围观
最近我们在排查 Claude Code 的内存泄漏问题,我一开始还是用老办法:连上性能分析器,运行程序,暂停分析器,再手动去翻堆内存的分配记录。从某种程度上来说,那些新来的同事,甚至是刚毕业的应届生,他们不会带着固有印象去评判模型能做什么、不能做什么,这些固有印象都是过去使用初代模型时留下的思维定式,因此他们反而能最高效地驾驭这类模型。我们还必须建立一套全面的心智模型,去理解这些本质上具有随机性、易错性、不可解释性且持续迭代的新事物的优势与缺陷,它们就这样突然融入了我们熟悉的传统工程开发体系中。
2025-12-28 09:34:49
293
原创 AI 智能体架构设计3年演进之路:复杂之后,回归简单
诚然,要使用某项技能,智能体需要具备对计算机的通用访问权限,但这正是 “惨痛教训” 的实践体现:与其为每项任务开发专用工具,不如为智能体提供通用工具,并相信它有能力利用这些工具完成任务,这很可能是更优的策略。智能体技能的出现,实现了 ChatGPT 插件最初的愿景:只需为模型提供指令和一些通用工具,便可信任它完成中间的衔接工作。文件夹的复杂范围设定系统。不过,这一功能让我们瞥见了未来的可能性:代码解释器插件(后更名为高级数据分析)后来成为了不可或缺的工具,预示着如今我们所使用的强大沙箱执行环境的诞生。
2025-12-27 08:02:20
938
原创 告别传统拼接上下文,谷歌提出新高效上下文工程方法:编译视图
当达到可配置的阈值(如模型调用次数)时,ADK 会触发异步压缩流程:利用大语言模型,对滑动窗口内的历史事件进行摘要(窗口参数包括压缩周期与重叠长度),并将生成的摘要作为一条新的 “压缩” 类型事件写入会话。理想的工作上下文,是二者权衡的结果:人类工程师定义架构(数据存储位置、摘要方式、过滤规则),智能体则提供决策智能,动态判断何时需要调取特定记忆片段或工件,以响应当前用户请求。目前主流的 “解决方案” 是依赖基础模型不断扩容的上下文窗口,但仅仅为智能体提供更大的文本容纳空间,绝非唯一的扩展策略。
2025-12-26 08:04:13
642
原创 谷歌再次重磅发布 AI 智能体新标准 A2UI
你不用打字回复,直接在这个界面上点选、滑动就能完成所有选择 ,比如选好某趟航班、勾选 “含早” 酒店,点击提交后,助手再通过 A2UI 生成支付表单和订单确认卡片,全程无需多轮文本沟通,所有操作都在可视化界面上完成,且这个界面和你手机系统的原生样式保持一致(比如 iOS 上是 SwiftUI 风格,Android 上是 Flutter 风格),体验流畅又安全。A2UI 是一个开源项目,包含一套专为“可更新的智能体生成 UI”而优化的格式,以及首批渲染器,让智能体能够生成或填充丰富的用户界面。
2025-12-25 08:01:53
842
原创 借助技能(Skills)和 MCP Servers 扩展 LLM 的功能
正确的分工是:让 MCP 负责连接,让技能(Skill)负责呈现、排序和工作流程逻辑。再添加一个会议准备技能(Skill),LLM 就会知道该调取哪些页面、如何格式化准备文档,以及团队交付会议纪要的标准,这样以来,“连接” 才真正发挥作用,而不只是 “可用” 而已。下面我们来看两个实际工作流程中,技能(Skills)与 MCP 的协同方式:财务分析师调取实时市场数据进行公司估值,以及项目经理使用 Notion 的 “会议智能(Meeting Intelligence)” 技能(Skill)准备会议。
2025-12-24 08:01:13
1037
原创 上下文工程之后又一门新兴技术:智能体工程(Agent Engineering)
所有人都明白,强化智能体的核心工作,在于通过观察生产环境中的行为,并基于所学进行系统性优化,这是一个循环往复的过程。如今,那些能够稳定部署智能体的组织,都在拓展工程、产品和数据团队的技能边界,以满足非确定性系统的需求。综上所述,智能体能够运行具有高影响力的实际工作流,但同时其行为问题是传统软件无法解决的,这既带来了机遇,也催生了对新兴技术的需求。首先设计智能体的核心架构,无论是带工具调用的简单大语言模型调用,还是复杂的多智能体系统。要打造可靠的智能体系统,部署是学习的过程,而非学习后的结果。
2025-12-23 08:02:30
1003
原创 先分块再向量化已过时!先 Embedding 再 Chunking 才是王道!
如今,“先 Embedding 再 Chunking” 的新思路正在崛起,以 Jina AI 的 Late Chunking 和 Max–Min semantic chunking 为代表的策略,正重新定义 RAG 分块的最优实践。未来,RAG 分块的优化方向可能是 “多策略融合”,结合语义相似度、文档结构、场景需求等多维度特征,实现更智能的动态分块。按段落、换行符、句子的优先级递归切割,虽能保证一定语义连贯性,但依赖文档结构完整性,若章节长度差异过大,可能生成超出大模型上下文窗口的分块,仍存在语义断层。
2025-12-22 08:02:01
907
原创 2025年 AI 智能体企业级落地现状报告
在已将智能体投入生产的受访者中,可观测性的普及率更高:94% 已部署某种形式的可观测性方案,71.5% 具备完整的追踪能力。与此同时,智能体在内部场景的价值仍十分显著,18% 的受访者表示使用智能体实现内部工作流自动化,以提升员工效率。89% 的组织已为其智能体部署了某种形式的可观测性方案,其中 62% 具备详细追踪功能,可查看智能体的每个步骤和工具调用情况。今年,三分之一的受访者将质量列为首要瓶颈,这包括输出的准确性、相关性、一致性,以及智能体维持适当语气、遵守品牌或政策准则的能力。
2025-12-21 08:04:03
744
原创 30 个必知的 AI 智能体关键术语
智能体连接外部工具、API 和数据源的标准化方式,包含 MCP 服务器、MCP 客户端、JSON-RPC、采样机制、MCP 安全防护、沙箱技术,以及如何将 LangGraph/LlamaIndex/CrewAI/PydanticAI 与 MCP 结合使用。如果你正在研究 LangChain、Spring AI、Spring AI Alibaba、CrewAI、LangGraph 或 AutoGen 等智能体框架,这份术语表能帮你理清关键构成模块之间的关联。:智能体在任意时刻从环境中获取的数据或输入信息。
2025-12-20 08:04:02
671
原创 GPT-5 的 Memory 系统技术架构,比想象中简单太多了!
在于:并非所有内容都需要以 “传统记忆” 的形式存在,会话元数据实时适配环境,明确事实跨会话持久化,对话摘要提供无细节负担的连贯性,当前会话保障即时推理流畅。对开发者而言,这是一个务实的工程启示:有时更简洁、经过精心筛选的方案,反而优于复杂的检索系统,尤其是在你能掌控整个技术链路时。通过结合临时会话元数据、明确长期事实、轻量对话摘要和当前会话滑动窗口,它实现了一项了不起的成果:既具备 “懂你” 的个性化体验,又摆脱了传统 RAG 系统的计算开销。这些记忆会作为独立模块,注入未来的每一次提示词中。
2025-12-19 08:01:03
942
原创 AI 智能体企业级自动化评估实用指南
这种方法能以传统人工审核成本的一小部分实现 24/7 全天候质量保障,可规模化处理定性评估任务,原本需要大量人工标注员完成的工作,如今该方法每小时可评估数千个输出,而非几十个。模拟测试则更进一步:它并非针对孤立案例,而是创建一个模拟真实运营的安全环境,例如:数千条合成客户聊天记录、模拟订单流程,或调用内部 API 的虚拟智能体。:指未经定制的基础模型(例如:Qwen 3、GPT-5、Claude 或 Gemini 3 Pro 等),这类模型经过海量数据集预训练,具备通用能力,但未针对特定任务优化。
2025-12-18 08:01:12
881
原创 Human In the Loop 新范式:基于 MCP 协议的 Agent 交互设计与实现
但在企业级应用中,Agent 多部署于远端服务端,大模型会将自身视为与人类平等的个体,设计提示词时应避免使用 "工具""LLM""大模型" 等术语,采用拟人化表述,减少 Agent 的理解偏差,提升交互自然度。未来,我们将进一步优化决策 Agent 的智能度,提升多轮交互的上下文理解能力,探索基于用户画像的个性化问询策略,让人机回路更高效、更贴合人类使用习惯。用户明确拒绝答复时,终端返回预设文本(比如:"我也不是很清楚这里的细节,你可以根据你的想法做发挥"),Agent 通过提示词调整行为,避免重复问询。
2025-12-17 08:01:48
734
原创 Claude Skills 完全指南:让 AI 精准适配你的工作流程
如果你是 AI 研究撰稿人,经常写技术文章,就可以在 SKILL.md 里写明要求:“用 EEAT 格式写作,模仿沃尔特・艾萨克森的语气,每个章节先给出结论,再详细展开”。在 Claude 设置里,你能看到已经激活的各种 Skill,比如:algorithmic-art(算法艺术)、brand-guidelines(品牌规范)、internal-comms(内部沟通)等,随时能用。:如果你的需求是 “帮我写新仪表盘功能的 PRD”,而你刚好有对应的 PRD Skill,Claude 会自动激活它。
2025-12-16 08:01:18
986
原创 到底选 Skills 还是 Subagents?一篇说透
这个 “分身” 会在独立的上下文环境中执行,有自己的工具和权限,执行过程中的思考、临时状态都不会占用主会话空间,做完只把最终结果反馈回来。但其实你真正要解决的核心问题,从来不是 “选哪个名词”,而是 “在我的场景里,谁来执行任务、执行到什么程度、状态怎么保留,才最高效?先抛开复杂概念,用做饭这件事打个比方。:在独立的上下文里执行,像开了一个 “子工程”,和主会话互不干扰,相当于 “外包给专门的分身完成”。的内容本质是相通的,都是 “工作说明书”,会明确任务目标、输入输出要求、执行步骤、注意事项。
2025-12-15 08:01:43
1002
原创 Skills 与 Prompts、Projects、MCP 和 Subagents 的区别
如果多个智能体或对话需要相同的专业知识,例如:安全审查流程或数据分析方法,建议创建技能,而非将知识内置到单个子智能体中。对于发现的每个问题,请提供:严重级别(致命 / 高 / 中 / 低)、在代码中的位置(行号或函数名)、漏洞风险说明及可能的利用方式、具体修复建议(尽可能附带代码示例)、预防类似问题的最佳实践指南。常见漏洞,包括:注入漏洞(SQL 注入、命令注入、跨站脚本(XSS)等)、身份认证与授权问题、敏感数据泄露、安全配置错误、访问控制失效、加密机制故障、输入验证问题、错误处理与日志记录问题。
2025-12-14 08:02:52
652
原创 我逆向工程了 ChatGPT 的记忆系统,发现了这些核心机制!!
核心洞察在于:并非所有内容都需要以 “传统记忆” 的形式存在,会话元数据实时适配环境,明确事实跨会话持久化,对话摘要提供无细节负担的连贯性,当前会话保障即时推理流畅。通过结合临时会话元数据、明确长期事实、轻量对话摘要和当前会话滑动窗口,它实现了一项了不起的成果:既具备 “懂你” 的个性化体验,又摆脱了传统 RAG 系统的计算开销。对开发者而言,这是一个务实的工程启示:有时更简洁、经过精心筛选的方案,反而优于复杂的检索系统,尤其是在你能掌控整个技术链路时。这些记忆会作为独立模块,注入未来的每一次提示词中。
2025-12-13 08:01:32
855
原创 构建 AI 智能体一年后的 8 大经验教训
而如今,PostHog AI 可通过数十种工具访问你的数据与配置,像不知疲倦的产品分析师般循环工作,直至完成你交付的任务:无论是多步骤产品使用分析、SQL 查询编写、新功能标志与实验配置,还是深挖高影响度错误等,所有操作均在 PostHog 生态内完成。最终,就像所有伟大的创作者都会借鉴他人经验一样,我们从最优秀的实践中汲取灵感 ,借鉴 Claude Code 的设计,实现了。它并非完美,但能应对产品数据的复杂现实:所有数据相互关联,事件构成会话,会话衍生错误,点击行为跨越多条路径,就像一碗缠绕的面条。
2025-12-12 08:01:12
616
原创 借助 MCP 实现代码执行代替工具调用,构建更高效智能体的新范式
传统方式中,智能体与工具、数据的对接需要为每一组配对开发定制化集成方案,这会造成系统碎片化和重复开发,难以构建真正可扩展的连接系统。运行智能体生成的代码需要安全的执行环境,包括适当的沙箱隔离、资源限制和监控机制。智能体可通过编写代码与 MCP 服务器交互,这种方式能同时解决上述两个问题:智能体仅加载所需工具,并在执行环境中处理数据后,再将结果返回给模型。工具中加入细节级别参数,允许智能体选择所需的信息详细程度(例如:仅名称、名称和描述、或包含模式的完整定义),也有助于智能体节省上下文并高效查找工具。
2025-12-11 08:01:28
804
原创 自进化 AgentScope Java 1.0 正式发布
针对 Java 生态下 Agent 开发的核心痛点:架构僵化、安全风险高、集成难度大、优化闭环缺失,框架以 ReAct 范式为基础,构建了 “自主规划 + 可控执行 + 数据驱动进化” 的技术架构体系,既满足企业级应用的稳定性要求,又能依托。内置 GUI、文件系统、移动端等开箱即用的沙箱环境,实现工具执行的高度隔离,防止敏感资源访问与不可控行为,全面支撑浏览器自动化、训练评测等复杂场景的安全需求。” 全生命周期解决方案为核心,打破智能体从实验室原型到业务落地的技术壁垒,凭借自进化能力与企业级稳定性,
2025-12-10 08:05:21
810
原创 Agent 业务落地的 “减法艺术”:从上下文工程到最小可行架构
Agent 业务落地的核心逻辑,是通过 “减法” 实现 “Less, but better”,剥离冗余信息、精简工具数量、简化执行流程,让 Agent 聚焦核心任务目标。Agent 的本质是 “基于上下文的智能决策系统”,而上下文工程的核心矛盾在于 “可用上下文” 与 “必要上下文” 的不匹配。,通过精准筛选信息、动态匹配工具、简化执行流程,保留完成当前任务 “必要且充分” 的资源,同时借助上下文工程与外部存储机制,解决 Token 冗余、信息过载等核心痛点。
2025-12-09 08:02:59
633
原创 企业级 AI 智能体落地,90%都是上下文工程,只有10%才是真正的 AI
CPU/GPU 提供商层、基础设施/基础层、数据库、ETL(提取、加载、转换)层、基础模型层、模型路由层、AI 智能体协议层、AI 智能体编排层、AI 智能体认证层、AI 智能体可观测层、工具层、认证层、记忆层、前端层。CPU/GPU 提供商层、基础设施/基础层、数据库、ETL(提取、加载、转换)层、基础模型层、模型路由层、AI 智能体协议层、AI 智能体编排层、AI 智能体认证层、AI 智能体可观测层、工具层、认证层、记忆层、前端层。如果你对构建企业级 AI 大模型应用新架构设计和落地实践感兴趣。
2025-12-08 08:05:53
835
原创 AI 智能体长期记忆系统架构设计与落地实践
当对话内容超出了上下文长度时,LLM 可能会像一个“健忘”的伙伴一样,忘记用户的喜好、重复提问,甚至与之前确认的事实相冲突。它把记忆信息保存成知识图谱的样子,图谱里的点代表不同的实体(比如:人、地方),点与点之间的连线代表它们之间的关系(比如“住在”、“喜欢”)。通过在长对话评测基准 LOCOMO 上,对 Mem0 和 Mem0-g 进行了全面的比较测试,对比的对象包括六种不同类型的基线方法,比如:现有的记忆增强系统、不同设置的 RAG、处理整个对话历史的全上下文方法、开源的记忆解决方案以及商业平台。
2025-12-07 08:02:17
774
原创 通过领域驱动设计对齐业务与技术架构
领域驱动设计(DDD)由埃里克・埃文斯(Eric Evans)首创,经沃恩・弗农(Vaughn Vernon)进一步阐述,是跨越这一鸿沟的战略桥梁。战术设计(Tactical Design):微观视角,提供模型的构建块,例如实体(Entities)、值对象(Value Objects)、聚合(Aggregates,一致性边界)和领域事件(Domain Events)。例如,在在线学习平台中,“课程管理”(核心子领域)和 “推荐引擎”(支撑子领域)是两个独立的子领域,各自拥有独特流程。
2025-12-06 08:01:17
778
原创 深度智能体2.0评估工程:LangChain 的实践经验
如果使用 LangGraph,其流式传输功能允许你在单次工具调用后中断智能体,检查输出结果,无需完整运行智能体序列,即可及早发现问题。用户要求智能体 “记住永远不要在早上 9 点前安排会议”,我们需要验证智能体是否会在文件系统中更新自身记忆,记录该信息。你需要测试的不仅是最终消息,每个数据点的 “成功标准” 可能更具针对性,还可能涉及对智能体执行轨迹和状态的特定断言。与较简单的 LLM 评估(环境仅限于少数无状态工具)不同,深度智能体需要为每次评估运行提供全新、干净的环境,以确保结果可复现。
2025-12-05 08:04:15
855
原创 企业级 AI 智能体规模化落地:MCP+GraphRAG+AgentDevOps+RaaS 的工程化实践
自 Claude 3.5 Sonnet 率先支持 MCP 以来,Block、Apollo 等企业快速落地实践,微软、谷歌、亚马逊云科技、OpenAI 及国内 BAT 等巨头也纷纷布局,GitHub、Hugging Face 社区涌现数千个 MCP Server,覆盖数据库、云服务等多元场景,MCP 注册表中的服务器数量已接近 2000 个,生态扩张速度显著。当 AI Agent 具备岗位专家能力,实现模板化复用且价值与财务口径精准对齐时,规模化部署的条件将完全成熟,人机共存的全新生态或将全面到来。
2025-12-04 08:32:04
1026
原创 RAG, Agentic RAG, and AI Memory 一文看懂 AI 技术演进
可以说,记忆是连接 “死板模型” 和 “灵活 AI 系统” 的桥梁。但这也不是没挑战:比如记忆会 “出错污染”(记混信息)、不知道该 “忘记” 没用的内容、还要区分不同类型的记忆(比如做事步骤、过往经历、专业知识)。关键动作:快速迭代提示词版本、用 “思维链”(一步步推理)、加 “少样本示例”(给几个正确案例),把提示词设计当成 “可重复的工程活”,而不是瞎试。关键动作:用 LoRA/QLoRA 等轻量方法(省钱省算力)、整理高质量数据(去重、格式统一)、防止 “学太死”(过拟合)或 “学不会”(泛化差)
2025-12-03 08:01:15
1013
原创 微服务之父深度访谈:AI 是软件工程40多年来最大的变局
Martin Fowler(马丁福勒) 是软件开发领域的标杆性人物,他是微服务之父,也是《敏捷宣言》起草者之一、《重构》《企业应用架构模式》等经典著作作者,作为 Thoughtworks 首席科学家,他对技术趋势的洞察始终深刻且具前瞻性。他分享了一个真实案例:同事用 LLM 生成 SVG 图表,表面可用,但当他试图微调标签位置时,发现生成的代码混乱复杂,远超人工手写的十几行代码,最终导致维护困境。Fowler 强调,:面对 AI 给出的解决方案,追问其逻辑和来源,利用 AI 辅助理解,而非单纯获取答案。
2025-12-02 08:02:07
1022
搜索入门搜索入门资料,绝对值得看!!!!!
2008-09-18
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅