- 博客(260)
- 资源 (2)
- 收藏
- 关注
原创 Agent 记忆架构选型实战:从场景到方案
本文探讨了不同场景下Agent记忆架构的设计选择,分析了三种编码Agent(Claude Code、Codex CLI、CodeWhale)的记忆系统差异: Claude Code采用四层认知架构模拟人类记忆流程,包括项目手册、自动记忆、会话记忆和后台整理机制,强调记忆的层级性和自然遗忘。 Codex CLI采用两阶段异步管道设计,分离记忆提取和合并过程,通过纯文本检索实现零延迟访问,但牺牲了模糊匹配能力。 CodeWhale利用大模型上下文窗口和前缀缓存技术,通过宪法机制和递归查询实现"开卷考试"式记忆
2026-06-17 23:13:23
428
原创 【Agent深入了解】记忆的作用
AI Agent记忆系统演进与选型决策 摘要:本文系统梳理了AI Agent记忆系统的发展历程与技术架构。文章首先指出LLM的"先天失忆症"源于其无状态、窗口有限和成本线性增长三大结构性矛盾。随后介绍了四类记忆系统(工作/情景/语义/程序性记忆)及其实现方式。重点阐述了记忆系统的三代演进:从初代向量存储,到二代结构化记忆(如MemGPT的三层架构、知识图谱等),再到第三代标准化基础设施。文章对比分析了六大主流架构流派(MemGPT、Mem0、Graphiti等)的特点与适用场景,并介绍了LoCoMo等……
2026-06-17 23:11:48
324
原创 【LLM 应用优化】Prompt Caching:LLM 调用成本降 90% 的底层机制与实战策略
文章摘要 Prompt Caching 通过复用 LLM 推理中的 KV Cache 中间状态,显著降低重复前缀的计算成本。核心原理是将 Prefill 阶段生成的 Key-Value 张量持久化,后续相同前缀请求直接复用缓存,跳过重复计算。三大厂商实现各异: Anthropic Claude:支持显式断点控制,缓存写入有溢价但读取成本仅标准输入的 10%; OpenAI:全自动前缀缓存,无写入溢价但读取成本为标准的 50%; Google Gemini:需显式创建缓存对象,按小时计费存储成本。
2026-06-15 21:29:25
325
原创 【LLM应用可靠性】3-Agent 事故响应:当 AI 系统行为异常时的 SRE Runbook
摘要(149字): 本文提出了AI Agent系统的四阶段事故响应框架,重点解决Agent自主行为导致的异常检测难、止损窗口窄等问题。核心措施包括:1) 设计四类Tripwire监控机制(成本、动作、输出、权限);2) 构建多级Kill Switch实现秒级阻断;3) 按动作类型(数据库写、API调用等7类)制定差异化回滚策略;4) 结构化复盘机制。通过预置运行时控制面(如Redis实现的紧急制动器),将检测时间压缩至4小时内,止血响应控制在30秒内,形成符合SRE规范的Agent运维体系。文中包含具体代码
2026-06-15 21:22:29
229
原创 【LLM应用可靠性】2-RAG 生产失败模式:如何避免检索生成系统的性能退化
RAG生产失败模式与治理方案 文章摘要: 本文系统分析了检索增强生成(RAG)系统在生产环境中的12大痛点和9种典型失败模式。研究发现,未经持续维护的RAG系统在数月内普遍面临检索准确率下降(40%归因于分块策略不当)、幻觉率升高(15%-25%)和运营成本增加等问题。核心痛点包括分块策略不当、嵌入漂移、向量库扩展瓶颈、局部检索缺陷、重排延迟等。针对这些问题,作者提出了语义分块、向量空间对齐、分层存储、引用锚定、多级过滤等治理方案,帮助将检索准确率从60%提升至82%以上,并将幻觉率控制在2%-5%范围内。
2026-06-13 23:27:59
384
1
原创 【LLM应用可靠性】1-Agent 评估体系:从单一指标到 SLO 驱动的体系化评估
本文介绍了一种从单一任务完成率到SLO驱动的体系化Agent评估方法。传统仅关注任务完成率的评估方式存在局限性,无法反映执行过程中的工具选择错误、参数偏差等问题。文章提出了6个关键SLO指标(任务完成率、工具调用成功率、错误恢复率等)和五维轨迹评分法(目标达成、工具选择、参数正确性等),并构建了执行层、推理层、行动层的三层评估架构。同时对比了TRAJECT-Bench、DeepEval等评估框架的适用场景,最后给出实战建议:根据业务类型定义评估优先级,构建包含黄金用例、边界用例和对抗用例的测试数据集。这种体
2026-06-13 23:25:37
335
原创 【向量数据库】Milvus:为大规模、高性能而生的企业级向量数据库
Milvus:企业级向量数据库解决方案 摘要:Milvus是一款专为大规模向量数据设计的高性能开源数据库,采用分布式架构解决单机数据库在十亿级向量场景下的性能瓶颈。其核心优势包括:1)存算分离的微服务架构,支持水平扩展;2)支持IVF、HNSW等高效ANN索引算法;3)提供四种一致性级别(强一致到最终一致)满足不同业务需求;4)支持多副本和故障转移机制确保高可用性。与轻量级方案ChromaDB相比,Milvus更适合需要处理海量向量数据(千万级以上)、高并发查询(万级QPS)以及企业级可靠性的生产环境。典型
2026-06-10 23:20:20
397
原创 【AI Coding】0-工程化视角理解AI Coding与LLM应用的上下文演化
本文从工程化视角探讨了AI Coding与LLM应用中的上下文管理演进。当前AI应用存在静默执行错误、上下文衰减和需求传递损耗三大核心问题。主流解决方案经历了从Simple RAG到Multi-Agent,再到Skills/Cowork和ClawBot的演化过程,呈现出由"对话内堆砌上下文"向"系统侧精准编排"转变的趋势。现代上下文工程采用外置(Offload)、精召(Retrieve)、压缩(Reduce)和隔离(Isolate)四象限方法论,通过技能化(Skills)和协同(Cowork)机制减少上下文
2026-06-10 22:27:45
375
原创 工作流(4)——分布式与工作流
摘要: 分布式微服务架构下,工作流引擎通过三层防御机制解决并发冲突问题: 乐观锁(基于REV_字段)拦截用户重复请求,确保流程状态唯一性; 悲观锁与任务认领(LOCK_OWNER_机制)防止定时任务被集群多节点重复执行; 业务层分布式锁(Redis实现)前置拦截重复提交,避免无效调用。 这套体系结合乐观/悲观锁与分布式锁,保障了工作流引擎在分布式环境下的“精确一次”执行语义,同时兼顾性能与数据一致性。
2026-04-23 23:05:09
519
原创 工作流(3)——复杂工作流:从驳回、加签到会签
工作流引擎开发中的四大难题与解决方案 本文针对工作流引擎开发中的四个典型复杂场景提出技术解决方案: 驳回流程:通过API强制修改Execution指针实现逆向跳转 动态加签:利用任务委派或多实例扩展API实现临时审批人增加 会签逻辑:配置多实例节点的完成条件表达式实现灵活审批规则 流程撤回:结合状态校验和执行跳转API实现流程回退 核心观点指出,工作流引擎不仅是BPMN规范的执行器,更是提供底层状态操作API的平台。开发者需要深入理解Execution、Task和Variable的关系,通过引擎API与业务
2026-04-23 23:00:39
441
原创 工作流(2)——工作流引擎的底层架构:从Token到数据库的精密运转
工作流引擎的核心机制解析:从Token驱动到数据持久化 本文深入剖析了工作流引擎的底层运转原理。核心在于Token机制,它像迷宫中的探索者,沿着有向图移动、分裂与合并,驱动流程流转。引擎通过三种数据库表(静态定义表、运行时表、历史表)实现持久化,利用事务保证数据一致性。业务系统通过Business Key和流程变量与引擎交互,实现业务数据绑定和流程决策。文章还揭示了并行网关的分裂机制和排他网关的条件路由原理,展示了引擎如何处理复杂并发场景。最后指出中国式特色流程需求对标准引擎的挑战,为下篇讨论本土化改造埋下
2026-04-22 22:09:38
467
6
原创 工作流(1)——从第一性原理出发看为什么我们需要工作流引擎
本文介绍了工作流引擎的核心概念和价值。通过对比传统if-else硬编码方式和状态机方案的局限性,阐述了工作流引擎如何将流程控制逻辑从业务代码中剥离出来,实现业务流程的可视化管理和灵活变更。文章重点讲解了工作流引擎的三大核心抽象:流程定义(路线图)、流程实例(具体执行)和任务(业务处理节点),并形象地将工作流引擎比作"铁轨网络+自动调度中心"。最后指出工作流引擎适用于需要人工参与、包含复杂路由的长周期业务流转场景,能够实现业务逻辑与流程流转逻辑的彻底解耦。
2026-04-22 22:00:14
427
原创 重构系统:程序员的必备技能指南
本文探讨了代码重构的重要性和实施方法。重构通过优化代码结构提升可维护性,常见时机包括出现长函数、复杂条件判断等情况。建议采用小步渐进式重构,配合测试驱动开发。文章提供了重构流程表(分析→提取→测试等)和常见陷阱解决方案。尽管重构能降低70%维护成本、提升50%开发效率,但企业常因短期产出压力而忽视。建议通过代码评审、技术氛围培养重构思维,并引入AI辅助质量检测。重构是技术债务的长期解决方案,需要平衡业务需求与代码健康。
2025-10-22 21:51:45
958
原创 日活百万?高并发ToC系统落地基石
众所周知,高用户量的ToC系统往往更关心:**高并发、高可用、低延迟、海量用户、用户体验、快速迭代**等。>当然,不包括哪些僵尸用户日活不到1w冒充高并发的ToC。>也不包括某xxOKR虚假宣传的数据量=并发量。让我们来一起看看高并发、低延迟思想下的经典代码范例。本篇涵盖并行调用、高性能计数、批处理、缓存等核心模式。
2025-10-01 19:00:00
1769
原创 Java性能测试利器:JMH性能基准测试
摘要: 本文介绍了JMH(Java Microbenchmark Harness)工具在Java微基准测试中的应用。JMH通过处理JVM优化(如JIT编译、死码消除等)确保测试准确性。文章详细解析了JMH的核心注解(如@Benchmark、@State、@Setup等)和参数配置,并提供了避免测试陷阱的实用技巧(如使用Blackhole防止死码消除)。此外,还强调了测试代码的合理范围,避免过度优化干扰结果。推荐通过官方示例和资源深入学习JMH的高级用法。
2025-09-22 20:00:00
2182
原创 AI对话接口入参解析
文章摘要 本文解析了AI对话接口的入参和响应设计,以通义千问(QW)和DeepSeek(DS)为例。核心参数包括session_id和parent_msg_id,用于标识对话链路和消息顺序。两者在参数获取流程和设计理念上存在差异:QW采用冗余设计确保数据独立性,而DS追求极简传输效率。响应方面,QW采用全量快照式结构,DS则为增量补丁式。文章还对比了Header设计的认证机制和流式传输实现,最后提出一个融合两者优点的简化设计建议,更适合一般项目开发。
2025-09-18 16:49:09
1442
原创 算法,蒜鸟蒜鸟-P5-理解“堆、图”
【摘要】本文介绍了堆和图两种重要数据结构及其应用。堆的核心功能是高效获取极值(O(1)时间),通过小顶堆解决LeetCode 215题(第K大元素)展示了其优势。图的邻接表表示和遍历方法(DFS/BFS)被详细说明,并以LeetCode 200题(岛屿数量)为例,阐述了如何通过DFS标记连通分量来统计岛屿数量,重点强调了visited集合对避免环路无限递归的关键作用。文章通过具体代码示例,直观呈现了数据结构的实现与应用逻辑。
2025-09-18 16:46:45
1137
原创 算法,蒜鸟蒜鸟-P3-理解“递归、回溯与分治”
摘要 本文深入探讨回溯算法(Backtracking)的核心思想与实现模式,通过经典例题展示其应用场景和优化技巧。主要内容包括: 回溯本质:基于DFS的试错搜索,通过“选择->递归->撤销选择”三步走结构实现,避免无效路径(剪枝)。 全排列问题(LeetCode 46):维护可选列表(used[]数组)、路径(path列表)和结束条件(路径长度等于输入数组长度),完整代码示例演示回溯框架。 组合问题(LeetCode 77):通过强制从小到大选择和动态调整循环范围(startIndex)避免重复
2025-09-16 09:00:00
1075
原创 算法,蒜鸟蒜鸟-P4-理解“动态规划-DP”
本文介绍了动态规划(DP)的基本概念及其在解决重叠子问题中的应用,并以LeetCode 70题“爬楼梯”为例详细解析了DP的五步解题法:定义dp数组含义、推导递推公式、初始化、确定遍历顺序和获取最终答案。通过优化空间复杂度,展示了如何用滚动数组将空间复杂度降至O(1)。文章还推荐了其他DP练习题供巩固学习。
2025-09-16 09:00:00
897
原创 算法,蒜鸟蒜鸟-P2-理解“树的遍历(BFS & DFS)”
本文介绍了树结构的两种基本遍历策略:深度优先搜索(DFS)和广度优先搜索(BFS)。DFS采用递归或栈实现,包括前序、中序和后序遍历三种经典方式;BFS则通过队列实现,适用于层序遍历和最短路径查找。文章通过LeetCode题目示例展示了两种算法的代码实现,并对比了它们的应用场景:DFS适合深度探索,BFS适合广度扩展。
2025-09-15 16:56:58
868
原创 算法,蒜鸟蒜鸟-P1-理解“双指针”
本文介绍了双指针算法的两种模式:左右指针和滑动窗口。左右指针适用于有序数组搜索问题,可将时间复杂度优化至O(n);快慢指针则用于解决链表环路等问题。通过示例展示了正确实现双指针算法的逻辑结构,强调状态处理与转移分离的重要性。滑动窗口模式用于解决连续子数组/子串问题,详细说明了其扩展和收缩窗口的步骤,并提供了无重复字符最长子串的代码实现。文章还推荐了相关LeetCode题目和题解资源,帮助读者深入理解双指针算法的应用。
2025-09-15 16:56:09
821
原创 Dubbo轻松入门-RPC框架的绝对主流
Dubbo 为业务应用提供了微服务开发API、RPC 协议、服务治理三大核心能力,让开发者真正的专注业务逻辑开发。本篇可以快速入门Dubbo。
2025-08-26 22:39:43
744
原创 vLLM轻松通
vLLM主要是解决大模型推理服务化问题,专于与推理、优化GPU使用、提供吞吐量,提供简单易用的API接口,支持Hugging Face模型无缝接入。本篇,让我们一起了解vLLM。
2025-08-26 22:33:11
1479
原创 MCP轻松入门
摘要: MCP(Model-Context-Protocol)是一种标准化协议,旨在解决AI应用与外部工具/数据交互时的NxM集成复杂性问题。其核心架构包括MCP Host(AI应用)、MCP Client(协议请求方)和MCP Server(协议执行方),通过中间层实现解耦与统一管理。MCP提供安全网关、降低厂商锁定风险,并支持灵活扩展。实际应用中需关注Server设计、安全授权、服务发现及性能监控。典型场景如IT支持机器人,可通过多个MCP Server分别调用本地系统与Jira API,由MCP Cl
2025-08-20 19:00:00
948
原创 提示词Token控制
本文介绍了优化大型语言模型(LLM)Prompt token的实用策略。主要内容包括:精简Prompt内容(清晰指令、限制示例、结构化输出);管理上下文窗口(截断、输入输出平衡、内容总结);高级技术(RAG检索增强、思维骨架提示、批处理);API参数微调(最大长度、停止序列等)。还提出落地应用建议:自适应RAG系统、任务分解让LLM专注自然语言处理部分,结合传统API提高效率。这些方法可在保证输出质量的同时有效控制token使用,优化模型性能和成本效益。
2025-08-19 22:23:32
1423
原创 “你不干有的是AI干”,提示词中的“情感化提示”
这篇文章探讨了大型语言模型(LLM)中"情感化提示"的作用原理和应用场景。作者指出,这些看似"无厘头"的提示词之所以有效,是因为LLM通过统计学习建立了"高期望→高质量输出"的模式关联。文章将这类提示分为四类:赋予专业性身份、提高任务重要性、鼓励深度思考和施加竞争压力,并通过测试案例展示了不同提示的效果差异。最后强调,情感化提示需要与清晰的基础提示结合使用,在复杂推理、专业文本生成等场景中效果尤为显著。
2025-08-19 22:22:33
1409
原创 一文了解金融合规
金融合规与安全开发摘要 本文系统介绍了金融科技领域的安全合规要求。金融合规是法律强制的核心要求,保障系统稳定性和数据安全,涉及KYC、AML、风控等关键概念。 文中提供了金融合规术语速查表,从Java工程师视角解释了KYC认证、反洗钱监测、数据脱敏等技术的实现要点,强调加密存储、审计日志、权限校验等开发规范。 金融系统开发需具备合规思维:数据安全是首要任务,所有操作必须可追溯,业务逻辑需严格精准。开发人员需将合规要求融入技术实现,如KYC认证流程、实时交易监控等,确保系统符合金融监管标准。
2025-08-16 16:11:07
1421
原创 难以忘记,快速入门DDD
DDD(领域驱动设计)是一种解决软件复杂性的思维框架,其核心价值在于通过领域建模管理业务固有的复杂性。传统开发存在以下问题: 业务与技术语言鸿沟:通用语言可确保代码与业务术语一致,避免需求偏差。 贫血模型导致逻辑分散:业务规则分散在Service层,充血模型通过封装行为到领域对象保证一致性。 系统边界模糊:限界上下文和聚合划分明确边界,避免领域间耦合。 DDD通过领域模型、限界上下文等模式,将复杂业务逻辑转化为可维护的代码结构。
2025-08-14 23:49:44
1189
2
原创 AI Agent 为什么需要记忆?
AI Agent 为什么需要记忆?核心瓶颈在于大语言模型(LLM)的 **“固定上下文窗口” (Fixed Context Window)** 是有限的,无法在一次处理中容纳长期的、跨会-话的全部信息。且应用需要控制成本、响应速度。为了让 Agent 能够执行复杂、长期的任务,就必须构建一个超越这个有限窗口的记忆系统。基于此,我们可以构建一个清晰的认知框架,从 **“存哪里”(存储架构)** 和 **“怎么用”(管理策略)** 两个基本维度来解构 Agent 的记忆系统。
2025-08-14 23:46:28
1117
原创 LoRA微调实战:万字深度解析
本文介绍了参数高效微调(PEFT)技术及其在自然语言处理中的应用。文章首先探讨了如何选择适合的预训练模型,以文本风格润色任务为例,推荐了Qwen2.5系列模型。随后详细阐述了微调方案的选择标准,包括QLoRA、Flash Attention-2等技术组合。文章重点展示了PEFT实战过程,特别是数据准备阶段的数据增强技术,通过教师模型自动生成高质量的指令数据集,包括总结扩写、提问回答和风格迁移三种模板。
2025-08-12 20:30:43
1867
原创 微调入门:为什么微调
本文探讨了大语言模型微调的技术选择与应用场景。文章首先分析了需要微调的四种典型情况:领域差异大、低资源语言、数据敏感性和硬件限制。随后详细对比了全量微调(Full Fine-tuning)和参数高效微调(PEFT)两类方法,重点介绍了LoRA、QLoRA等技术的原理与适用场景。通过对比表格,总结了不同微调方法在显存需求、训练速度、性能上限等方面的差异,并提供了技术选型建议。最后比较了RAG与微调在垂直领域的应用差异,指出RAG侧重知识增强而微调侧重技能传授。全文为开发者提供了清晰的微调技术路线图,特别强调了
2025-08-12 20:26:32
720
原创 从零构建TransformerP2-新闻分类Demo
本文介绍了一个从零构建Transformer模型的完整流程,主要用于新闻分类任务。代码使用PyTorch实现,包含关键组件:词嵌入层(TokenEmbedding)、位置编码(PositionalEncoding)和多头注意力机制(MultiHeadAttention)。文章强调LLM应用工程师需要对Transformer有基本理解,并提供了详细的模块设计说明和代码实现。模型采用标准的Transformer架构,包括缩放点积注意力、多头机制等技术,适用于序列数据处理任务。代码由QWen3-Coder生成,可
2025-08-08 21:58:32
536
原创 从零构建TransformerP1-了解设计
本文介绍了如何基于PyTorch实现一个完整的Transformer模型。文章首先回顾了序列任务的特点和Transformer的核心优势,特别是其自注意力机制能有效建模长距离依赖和元素间关系。作者详细讲解了输入序列的处理方式(分词、词向量嵌入、位置编码)以及批量训练技巧(padding和mask)。通过对比RNN/LSTM和CNN在长距离依赖处理上的不足,凸显了Transformer的架构优势。最后,文章以文本分类任务为例,展示了Transformer如何通过自注意力机制解决语义歧义问题,建立词之间的关联
2025-08-08 21:56:38
1360
原创 PyTorch Quickstart
本文介绍了PyTorch快速入门指南,重点讲解了数据处理和模型优化两个核心环节。在数据处理部分,详细说明了Dataset和DataLoader的作用:Dataset负责样本管理和索引访问,DataLoader实现批量加载和并行处理。同时介绍了PyTorch提供的三大领域工具箱(TorchText、TorchVision、TorchAudio)及其内置功能。在模型优化部分,对比了手动更新参数和使用优化器的区别,演示了训练循环的实现流程,包括前向传播、损失计算、反向传播和参数更新步骤,并提供了测试模型性能的标准
2025-08-08 00:43:36
1147
原创 PyTorch 核心三件套:Tensor、Module、Autograd
本文介绍了PyTorch的核心组件Tensor和Module。Tensor作为多维数组,是深度学习的基础数据结构,用于表示输入数据、标签、模型参数及中间计算结果。Module是构建神经网络的基类,通过定义forward()方法实现数据流动逻辑。文章详细讲解了Tensor的五大应用场景(数据表示、标签、参数存储、中间计算、梯度计算)和常用API,并演示了Tensor的创建、运算和自动求导功能。同时介绍了使用nn.Sequential快速构建模型和自定义Module子类的方法,帮助读者从工程角度理解PyTorc
2025-08-07 21:49:38
621
原创 神经网络入门指南:从零理解 PyTorch 的核心思想
本指南适合以下读者:- 正在学习 PyTorch,已掌握基础三件套:`Tensor`、`nn.Module`、`Autograd`- 希望补全对“神经网络”整体认知的学习者- 想要建立直觉理解而非仅记忆公式的新手
2025-08-07 21:45:14
843
原创 PyTorch入门引导
为什么要学习PyTorch?微调、部署、研究都需要。- 现代AI研究的通用语言基础就是PyTorch。- 几乎所有的微调工具和库,包括Hugging Face的transformers, peft, trl,其底层都是基于PyTorch构建的。- 当你需要排查部署中的性能瓶颈、显存溢出(OOM)等问题时,理解模型在PyTorch中是如何加载和计算的,将是解决问题的关键。尝试让读者通过本篇快速认识PyTorch,开始学习PyTorch。
2025-08-06 23:37:51
1087
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅