w_t_y_y-CSDN博客

原创知识体系——Harness（一）介绍

所有顶级的 Agent 引擎（无论是早期的 AutoGPT，还是如今最先进的 Claude Code、OpenClaw），它们表面上看起来像魔法一样能在你的本地项目里来回穿梭、修改代码、执行测试。当它拿到一个宏大的任务（比如：“找出项目中计算错误的原因并修复”）时，它不可能像传统的纯问答（QA）机器人助手那样，在一次 API 调用中就吐出最终的完美代码。在这个 OS 里，大模型是 CPU，上下文窗口是极其珍贵的 RAM（内存），各种本地操作是外设（硬件）。：既然大模型是自由的，它就可能犯错或搞破坏。

2026-05-13 17:29:57 269

原创 Agentic RAG

Agentic RAG

2026-05-07 16:49:56 189

原创 RAG检索策略（二）句子滑动窗口检索

在构建现代 RAG（Retrieval-Augmented Generation）系统时，最核心的矛盾之一是：检索需要“精确命中”，但生成需要“足够上下文”。如果只做粗粒度切块（chunk），很容易出现命中不准；如果切得太细，又会导致上下文缺失。节点-句子滑动窗口检索正是为了解决这个问题而提出的一种工程化方案，它在 LlamaIndex 等框架中被广泛使用。

2026-05-06 16:47:45 53

原创 RAG检索后优化方法（一）重排序

RRF 重排。

2026-05-03 19:55:51 459

原创 RAG（四）增强召回的方法（2）使用合适的索引策略

找到Rag系统的瓶颈并使用适合的索引策略。

2026-05-02 14:06:20 333

原创 RAG 概念篇

检索方式和检索策略。

2026-04-30 21:15:11 28

原创 RAG增强召回的方法（一）检索前处理-用户问题的优化

在 RAG 系统中，用户问题（Query）的质量直接影响检索效果。。改写类：让 query 更清晰拆解类：让 query 更容易命中决策类：让系统用对方法。

2026-04-30 15:06:24 192

原创 RAG（三）检索方式（3）图检索

图检索的数据通常持久化在图数据库中，但在实际 RAG 系统中，也可能存储在关系型数据库、向量数据库或混合存储系统中，具体取决于图结构复杂度和查询需求。把信息建模成“图结构”，通过节点（实体）和边（关系）进行查询与推理的检索方式。查询方式通常是“路径式”的，而不是关键词匹配。这种结构的核心优势是：可以进行。最终进入 LLM 生成阶段。，而不仅仅是文本匹配。

2026-04-30 11:22:02 261

原创 RAG检索策略（一）混合检索

本文介绍了混合检索（HybridRetrieval）技术，它结合了基于关键词的稀疏检索和基于向量的语义检索，通过多路召回和统一排序提升检索效果。文章详细说明了RAG流程中的文档切片、向量表示、关键词索引构建等步骤，并给出了一个实际demo实现。该demo使用Qdrant向量数据库同时支持dense和BM25稀疏检索，通过中文分词和英文小写化预处理优化检索效果。文中还展示了增量更新向量库的方法，包括文档添加和删除操作。测试结果表明混合检索能有效结合两种检索方式的优势，提升检索质量。

2026-04-29 14:50:12 399

原创 RAG（三）检索方式（2）向量检索

但要注意：VARCHAR 有长度上限，最大可到 65535 字节，超大的原文一般不建议硬塞进去。如果是 Base64 编码数据，也可以用 blob。官方文档里也写得很清楚，文本字段可以转成向量，而其他字段会作为 metadata 存储。其中最常见的是 HNSW，因为它适合做近似最近邻搜索，速度快，召回效果也不错。把每个 chunk 送入 embedding 模型，得到向量。也就是说，它也支持“向量 + 文本/元数据”的组合。向量召回通常是“先找近”，但不一定“最适合回答”。最后把这些数据和索引结构落盘。

2026-04-28 13:35:09 377

原创 RAG检索方式（一）关键词检索（BM25）

BM25算法核心解析与应用指南摘要：本文详细解析了BM25算法（Okapi BM25）的核心参数与应用场景。k1参数控制词频饱和程度（默认1.2），b参数调节文档长度惩罚（默认0.75）。文章建议短文本（如标题）可增大b值，长文档则应降低b值避免过度惩罚。同时介绍了discount_overlaps参数在同义词处理中的作用。实践部分展示了使用jieba分词和BM25Okapi库的Python示例，演示了如何实现中文文本检索。最后从工程角度说明了倒排索引的存储方案，包括Elasticsearch等系统的字段

2026-04-27 18:17:10 448

原创 RAG（六）rag系统的评估方法

本文探讨了如何利用Ragas框架评估RAG系统的检索效果，通过对比向量检索、BM25检索和混合检索三种策略的质量指标。研究发现：评估指标显示混合检索在faithfulness(1.0)上表现最好，而向量检索在answer_relevancy(0.787)上更优；具体场景需求不同：企业知识库需高faithfulness(0.9+)，搜索系统需高context_recall(0.85+)；通过prompt优化和参数调整(如temperature=0.0)，可使faithfulness从0.667提升到0.

2026-04-26 19:58:47 37

原创 RAG增强召回的方法（三）垂直领域

HiRAG 是一个基于检索增强生成（RAG）的开源项目，旨在通过分层检索和生成方法提升模型性能。该项目探索了除微调外的其他技术路径，如改进检索策略、优化上下文整合等，为RAG应用提供了新的实现思路。HiRAG在GitHub上开源，方便开发者研究和使用这些创新方法。

2026-04-25 21:24:58 25

原创 RAG增强召回的方法（二）多路召回

本文介绍了RAG（检索增强生成）系统中召回阶段的优化方法。召回质量直接影响后续生成效果，是RAG系统的关键环节。主要优化方法包括：1）查询改写，通过HyDE技术生成假设文档作为检索桥梁；2）多路召回，结合向量检索、关键词检索等多种方式；3）重排序，使用更强模型对结果进行细粒度相关性评估。文章强调多路召回后必须进行重排序，因为不同召回方式的评分体系不同，重排序能识别真正相关的文档片段并过滤噪声。这些方法共同提升了召回质量，为后续生成阶段提供更准确的信息基础。

2026-04-25 19:43:14 573

原创 RAG检索方式（零）检索方式和索引结构

RAG系统中常见的检索方式可分为三类：关键词检索（如BM25、倒排索引），基于字面匹配，速度快但对语义理解弱；向量检索（如embedding相似度），通过向量空间捕捉语义关系，但精确匹配能力不足；混合检索结合两者优势，同时支持字面匹配和语义匹配。此外还有结构化检索、图检索、分层检索等进阶方式，但关键词、向量及混合检索是工程实践中最核心的三种方案，分别适用于不同场景需求。

2026-04-24 18:04:21 51

原创 RAG切片方式

本文探讨了RAG系统中切片(chunking)策略的重要性及优化方法。切片质量直接影响检索效果，不合理策略会导致关键信息丢失或语义混乱。核心原则是在保证语义完整性的同时减少碎片化，需平衡粒度控制、可检索性和上下文冗余。文章详细对比了固定长度切片、递归切片、句子切片、语义切片等方法的适用场景，并提供了LlamaIndex和LangChain的具体实现代码示例。其中，固定长度切片适合基础场景，递归切片处理复杂结构，语义切片能提升内容一致性。作者还提出混合切分策略，结合语义切分和滑动窗口的优势，以优化检索效果。最

2026-04-24 15:08:47 50

原创 AI工程化设计（五）Agent设计范式（4）Multi-Agent——demo

典型：GitHub Copilot Enterprise / for Business、Sourcegraph Cody Enterprise、AWS CodeWhisperer Enterprise、IBM watsonx Code Assistant、Tabnine Enterprise、自建 Agent（基于 LangChain、OpenAI o1、Claude 3.7、Llama 3.1、Qwen 等）。云厂商在「云 IDE + 云 API 代码助手」上也基本站稳。

2026-04-24 10:10:37 355

原创 AI工程化设计（五）Agent设计范式（6）Memory + Retrieval

让 Agent 不只依赖“当前这轮上下文”，而是能把过去见过的信息、用户偏好、任务历史和外部知识，在需要的时候找回来，再参与当前决策。Memory负责“存什么”Retrieval负责“什么时候、按什么规则取什么”Agent负责“把取回来的内容用于当前任务”LLM 本身不是长期记忆体。上下文窗口再大，也不等于可持续记忆。如果没有这套机制，Agent 每次都更像“刚认识你”，很难成为真正持续协作的系统。

2026-04-23 14:41:38 149

原创 AI工程化设计（五）Agent设计范式（5）Human-in-the-loop

Human-in-the-loop，通常简称HITLAgent 不被设计成“全自动自己决定一切”，而是在关键节点把人纳入决策闭环里。Agent 负责提效人负责兜底、判断、授权、纠偏所以，HITL 不是“因为 Agent 不够智能，只好让人补一下”，而是一种主动设计出来的控制机制。哪些事情 Agent 可以自己做哪些事情必须让人确认人应该以什么方式介入人介入之后，系统如何继续往下运行不是把人放在系统外面等出事再救火，而是把人作为流程中的正式节点。

2026-04-23 14:37:46 138

原创 AI工程化设计（五）Agent设计范式（4）Multi-Agent——介绍

不是让一个 Agent 从头做到尾，而是让多个 Agent 分工协作完成任务。它更像一个团队，而不是一个“全能个体”。有人负责规划有人负责执行有人负责检查有人负责汇总必要时还有人负责仲裁或升级给人所以它本质上在解决一个问题：当任务复杂到一个 Agent 不够稳定时，能不能像组织团队一样来完成？

2026-04-23 14:34:10 348

原创 AI工程化设计（五）Agent设计范式（3）Workflow / 状态机

在 Agent 设计中，Workflow / 状态机是一类非常“工程化”的范式。ReAct：边查边想Plan-and-Execute：先规划再执行先把流程图画清楚，再按规则运行让系统更可控、更稳定、更可审计。可控性强（不会乱跑）易审计（每一步都有记录）易测试（路径是确定的）支持失败恢复（从状态继续）易接入权限控制和人工审批适合多人协作和系统集成尤其在高风险操作中（比如付款、删数据、发通知），优势非常明显。

2026-04-23 14:29:57 340

原创 AI工程化设计（五）Agent设计范式（2）Plan-and-Execute

先把任务想清楚、拆清楚，再按步骤执行。也就是把“规划（Plan）”和“行动（Execute）”明确分开。ReAct 更像是“边走边看”那 Plan-and-Execute 更像是“先做作战计划，再逐步落地”整个任务应该怎么组织，才能更稳定地完成。

2026-04-23 14:24:50 308

原创知识体系SKILL（三）SKILL+KB（knowledge）（1）KB建设

如何把已有的文档、数据等总结成一套KB体系。

2026-04-23 13:58:34 30

原创 AI工程化设计（五）Agent设计范式（1）ReAct

ReAct 真正发挥作用，往往离不开工具系统。常见的工具可能包括：有了这些工具，模型就不再只是“说”，而是可以“做”。在这个意义上，ReAct 可以理解为一种调度机制：它负责根据当前上下文，决定什么时候该查文档、什么时候该查数据库、什么时候该读日志，以及什么时候已经足够给出最终答案。

2026-04-23 10:45:00 463

原创 AI工程化设计（五）Agent设计范式（0）介绍和对比

Agent设计范式是一套构建智能体系统的框架方法，聚焦系统级协作与运行问题。其核心价值在于将Agent从"能用"提升到"可控、可维护、可扩展"的状态，通过规范化的设计解决感知决策、任务拆解、工具调用等关键问题。典型范式包括ReAct、Plan-and-Execute、Multi-Agent等，与软件设计模式形成互补关系：前者决定系统运转逻辑，后者保障代码实现质量。这种分层设计既避免了功能混乱，又能适应智能系统特有的不确定性，为构建稳定的Agent系统提供了方法论支撑。

2026-04-23 10:24:02 265

原创 LLM多模态开发

图 / 文之间的相互转换、TTS/ASR/OCRTTS（Text-to-Speech，文本转语音）：将文字信息转化为语音输出的技术。ASR（Automatic Speech Recognition，自动语音识别）：将语音信号转化为文字的技术OCR（Optical Character Recognition，光学字符识别）：将图像或扫描件中的文字转化为可编辑的文本的技术。

2026-04-22 15:00:48 40

原创模型微调（二）QLoRA量化+微调

量化是一种常见的大模型压缩技术，特别是在部署到资源受限的设备上时，如手机或嵌入式系统。通过将模型中的数据类型从高精度（如 32 位浮点数，即 float32）转换为低精度（如 8 位或 4 位整数，即 int8 或 int4），可以显著降低模型的存储需求和计算复杂性。

2026-04-22 14:16:49 31

原创模型微调（一）PEFT 框架微调

为什么要做大模型的微调？两个目标，第一个是让模型更切合自己的应用场景，更加适应特定的下游任务；第二个是模型能够变得更加轻便，节省资源。

2026-04-21 16:44:45 146

原创 Claude Code（十）Claude Code SDK

tool(# 调用天气 API（示例）return {return {"}try:result = eval(args["expression"]) # 生产环境请用安全的表达式解析器return {return {],# 创建 MCP 服务器。

2026-04-21 15:09:53 417

原创 Claude Code（二）rules

claude/rules/ 目录下的每个 .md 文件，本质上就是一段会被注入 System Prompt 的文本。它和 CLAUDE.md 没有本质区别——都是 Claude 在每轮 API 调用中“看到”的指令。唯一的结构化优势是，它可以按主题拆分成多个文件，还支持条件加载。.claude/└── rules/├── typescript.md # TypeScript 编码规范├── testing.md # 测试规范（有 paths 条件）

2026-04-21 14:59:27 423

原创 Headless

Headless 这个词来自“无头浏览器”（Headless Browser）的概念——没有图形界面，但功能完整。

2026-04-21 14:52:20 243

原创 Claude Code（七）Tools 工具系统内核剖析

如果 Claude 没有工具，它只能做一件事：输出文本。它能思考、能分析、能给建议，但不能行动。用户: 帮我修复 src/api.js 中的 bugClaude:（思考）这应该是一个 JavaScript 文件...（继续思考）用户想让我修复 bug...（输出文本）"您好，请提供 src/api.js 的内容，我来帮您分析问题。工具让 Claude 从顾问变成了执行者。Claude Code 的工作循环——Agentic Loop 可以分为三个阶段，根据任务需要灵活切换。

2026-04-21 14:40:35 229

原创 Claude Code（七）Hooks

如果你有 Web 开发经验，你一定熟悉中间件（Middleware）的概念。请求 → 中间件1 → 中间件2 → 中间件3 → 处理函数↓认证、日志、限流Claude Code 的 Hooks 机制与此异曲同工，但它针对的不是 HTTP 请求，而是 AI Agent 的工具调用。Hooks 是 AI 助手的中间件——拦截、监控、增强每一次交互。这个类比不仅是形象上的相似。

2026-04-21 14:08:50 381

原创 ai coding工具共性（四）skill（2）Skills 与 SubAgent 配合

Skills 单独使用已经很强，但它真正的威力在于与 SubAgent 组合——把一个通用的 Agent 打造成领域专家。

2026-04-21 11:33:46 72

原创 Claude Code 记忆系统与 CLAUDE.md

Claude Code 有多种方式获取项目相关知识，它们的区别如下表所示：这里的关键洞察是——CLAUDE.md 的内容会每次对话都加载，所以要精简。把“每次都需要”的内容放这里，把“偶尔需要”的内容放到 Skills 或文档里。

2026-04-20 15:17:34 392

原创 AI工程化设计（六）Agent 开发框架（3）LangGraph

2026-04-17 18:05:06 30

原创 AI工程化设计（六）Agent 开发框架（2）CrewAI

CrewAI 是一个开源的多智能体框架，支持工具集成，用于构建一组协作完成任务的智能体（Agents）。它的设计理念是：每个 Agent 都具备特定角色、工具和目标，通过任务分工与信息共享共同解决复杂问题。CrewAI 能够提供类人团队的任务执行方式，不但可以构建单智能体助手，更可以构建“项目经理 + 设计师 + 执行者”这样的模拟团队。CrewAI 的另一个优势是可扩展性和生产级部署，因此其实可以广泛应用于你的数据分析、内容创作、自动化流程等场景。

2026-04-17 17:43:15 58

原创 AI工程化设计（六）Agent 开发框架（1）有哪些框架&&A2A协议

于 2024 年初发布，LangGraph 旨在为开发者提供一种灵活、可视化且强大的工具，处理复杂任务的代理协作和状态管理，特别适用于需要动态决策和上下文跟踪的场景。自 2023 年底首次亮相以来，LlamaIndex Agent 已发展为一个强大的工具，特别适用于需要高效处理结构化和非结构化数据的应用场景，它在知识管理、问答系统和数据驱动的代理协作中表现出色。这张图展示了 Semantic Kernel 的核心架构，通过将用户代码与插件、钩子与过滤器集成，结合最新的 AI 模型，支持灵活扩展和模型更新。

2026-04-17 17:15:09 394

原创 python AI工程（二）python实现skill+cli

python实现skill+cli。

2026-04-16 16:28:02 76

原创 python AI工程（一）python实现mcp（3）langchain

LangChain 本身目前主要是“消费 MCP server”，官方文档推荐用 langchain-mcp-adapters 连接 MCP；它不是通用意义上“自己手写任意 MCP server”的主力 SDK。

2026-04-16 14:09:49 31

空空如也

空空如也