流水行云_Flowing Code-CSDN博客

原创 RAG智慧问答项目

针对电力规程问答场景中通用大模型幻觉频发、大模型API响应超60秒、长尾问题覆盖不足等痛点，本文设计并实现了一套五级兜底架构的RAG问答系统。系统采用Redis缓存、BM25关键词、Milvus混合检索（稠密+稀疏）、千亿大模型API、人工座席五级逐层兜底，保证100%回答率。技术层面，通过bert-base-chinese微调实现94%准确率的意图分流，BGE-M3+Milvus保障语义与关键词双重召回，BGE-Reranker-Large精排提升精度，Qwen2.5-14B（INT8）单卡部署完成生成。

2026-05-01 13:53:33 369

原创大模型Prompt-Tuning技术进阶 - 完整总结

大规模模型高效微调技术解析摘要：本文系统介绍了面向超大规模模型的Prompt-Tuning和PEFT参数高效微调技术。针对10亿+参数模型，分析了Prompt-Tuning的三大范式：In-Context Learning（零样本学习）、Instruction-Tuning（指令微调）和Chain-of-Thought（思维链推理）。重点阐述了PEFT三大方法：Prefix-Tuning（前缀调优）、Adapter-Tuning（适配器调优）和LoRA（低秩适应）

2026-04-28 21:11:20 345

原创大模型Prompt-Tuning技术详解：从入门到进阶

本文系统介绍了NLP任务的四种发展范式，重点对比了Fine-Tuning和Prompt-Tuning的核心原理与差异。Prompt-Tuning通过调整输入提示而非修改模型参数，实现了更高效的少样本学习。文章详细解析了In-Context Learning、Hard/Soft Prompt等主要方法，以及面向超大模型的Instruction-Tuning和Chain-of-Thought技术。同时介绍了PEFT参数高效微调技术，特别是LoRA和QLoRA等突破性方法，使消费级设备也能微调大模型。

2026-04-28 16:27:31 181

原创大模型面试通关秘籍：面试官亲划的5大核心考点（附满分回答模板）

摘要：本文提炼了大模型面试中的核心知识点，整理成5张关键表格：1. Transformer原理篇（Attention机制、LayerNorm等核心问题）；2. RAG技术篇（检索增强生成的实现与优化）；3. Agent系统篇（智能体的架构与规划）；4. 工程化部署篇（推理优化与生产部署）；5. 开放式问题应对策略。重点强调面试中要用通俗语言解释技术原理，结合实践案例展示解决问题的能力，而非死记硬背概念。最后指出面试本质是专业匹配，需展现工程能力、沟通能力和技术热情。

2026-04-28 15:18:09 273

原创大模型面试宝典

本文总结了21道高频AI面试题，涵盖模型微调、Transformer架构、BERT原理、训练技巧等核心知识点。主要内容包括：1）LoRA通过低秩矩阵实现高效微调；2）RMSNorm相比LayerNorm计算更快；3）Decoder-only架构在成本效果上更优；4）BERT采用80%-10%-10%的mask策略；5）训练显存约为参数量8倍；6）RAG通过检索增强生成质量；7）PDF提取需根据不同内容选择工具。每道题均以"维度-内容-总结"的结构呈现，帮助快速掌握核心要点。

2026-04-28 15:03:28 310

原创 Agent 完整面试指南：原理、框架、架构模式

《智能Agent技术全景解析》摘要： Agent作为自主决策的智能实体，通过感知-规划-行动闭环实现目标。核心架构包含推理、记忆、工具调用和行动执行四大模块，支持CoT/ToT/ReAct等思维模式。相比RAG和微调，Agent在多步推理和工具调用上具有优势。国内Coze平台生态最成熟，百度千帆适合企业级应用。Multi-Agent通过协作解决复杂问题，但需权衡成本与效率。介绍了六大架构模式

2026-04-28 14:51:31 339

原创 LoRA 面试完全指南：低秩分解原理 + Transformer 应用

LoRA（低秩自适应）是一种参数高效微调方法，通过在预训练模型旁注入可训练的低秩分解矩阵（B×A），大幅减少训练参数量（通常0.1%-1%）。核心优势包括：显存占用低、训练速度快、存储成本小（仅需保存MB级权重），且效果接近全量微调。其原理基于预训练权重更新具有低秩特性，通过冻结原始权重W，训练随机初始化的A矩阵和全零初始化的B矩阵（r<<d）。LoRA广泛应用于Transformer的Q/K/V/O投影层，典型配置r=4-32。变体QLoRA结合4-bit量化实现消费级显卡训练大模型。

2026-04-28 14:27:31 343

原创 RAG 完整面试指南：原理、优化、幻觉解决方案

摘要：RAG（检索增强生成）是一种通过实时检索外部知识库来增强大模型回答能力的方法，能有效解决知识过时和幻觉问题。其核心流程包括离线建库（文档加载、分块、向量化）和在线检索生成（查询改写、混合检索、结果精排）。优化重点包括：查询改写、混合检索策略、Chunk参数调整（建议256-512tokens，10-20%重叠率）、提示词工程等。相比微调和Agent，RAG具有无需训练、算力消耗低、知识可实时更新等优势，是当前缓解大模型幻觉的实用方案。

2026-04-28 13:58:29 403

原创大模型训练框架 ➕ 推理部署框架

本文系统介绍了大模型训练和推理的主流框架。训练方面重点解析了DeepSpeed框架，包括其核心技术ZeRO优化器（分阶段切分模型状态）、3D并行（数据/模型/流水线并行）以及梯度累积方法，并提供了ChatGLM-6B微调的实战代码示例。推理方面对比了7种框架，突出vLLM的PagedAttention技术和TGI的生产级稳定性，并给出选型指南：新手用Ollama、高并发选vLLM、生产环境用TGI。文章最后总结了"训练用DeepSpeed，推理选vLLM/Ollama，生产上TGI&quot

2026-04-28 13:37:50 487

原创 LangGraph 垂直领域智能体实战：从入门到构建高效AI工作流

《基于LangGraph的智能体开发实战指南》摘要本文系统介绍了使用LangGraph框架开发智能体的完整方法。首先讲解了智能体的核心架构（大脑、感知、行动和记忆模块），以及LangGraph的图结构计算模型优势。通过"冲咖啡"案例详细演示了流程控制、状态管理和人工介入的实现方式。重点阐述了六种智能体构建模式：提示链（分步处理）、分支（条件路由）、并行化（效率优化）、计划-执行（任务分解）、生成-评估（迭代优化）和智能体（自主决策）。

2026-04-26 22:57:43 428

原创大模型KV缓存机制：从根本上理解你命中缓存了吗?

摘要：KV缓存机制基于序列前缀匹配而非问答对缓存，每轮对话新增成本来自上一轮回答和本轮问题。优化原则是固定内容前置、动态内容后置，可显著降低多轮对话成本。关键认知包括：缓存按token级前缀匹配，命中率依赖输入序列一致性；上一轮回答不会作为前缀被命中；动态内容混入前缀会导致缓存失效。工程实践中可通过调整输入结构、预热缓存提升命中率，验证方式为查看API返回的缓存命中token数。该机制将多轮对话成本从O(n²)降至O(n)，节省80%以上计算量。

2026-04-25 20:03:05 817

原创生产级RAG Agent系统的标准架构

本文介绍了一个生产级旅行助手系统的核心架构实现，主要包含以下特性：采用两阶段LLM处理流程（槽位提取+响应生成）实现智能追问机制（基于missing_slots标记）构建多层上下文管理系统（内存/Redis/MySQL）集成AgentServer+MCP数据库查询功能系统包含8个核心类，分为数据类（IntentResult、ConversationContext等）和业务类（ContextManager、IntentRecognizer等），通过TravelAssistant主控制器协调工作流程。

2026-04-24 14:30:43 602

原创基于MCP与A2A协议的智能旅行助手系统(MCP➕A2A➕mysql➕LLM)

本文介绍了一个基于MCP和A2A协议的智能旅行助手系统。该系统采用分层架构设计，包含数据采集层、MCP工具层和A2A代理层。核心功能包括天气查询、火车票/机票/演唱会票务查询等，通过自然语言交互实现。关键技术包括：1)使用MCP协议封装数据库查询工具；2)采用A2A协议实现多Agent协作；3)利用LLM进行意图识别和SQL生成；4)Streamlit构建用户界面。系统具有模块化、可扩展的特点，通过标准化的协议设计实现了工具与Agent的解耦，为智能助手类应用开发提供了参考架构。

2026-04-22 21:15:02 759

原创从零开始掌握A2A协议：构建多智能体协作系统的完整指南

A2A协议是Google在2025年发布的智能体间通信协作标准，旨在解决单个AI Agent处理复杂任务的局限性。本文系统介绍了A2A协议的核心概念，包括AgentSkill(能力单元)、AgentCard(电子名片)、Task(任务管理)和TaskState(状态机)，并提供了从零构建A2A Server和Client的实战指南。重点讲解了三种协作模式：串行执行、智能路由和A2A+MCP组合应用，最后通过智能旅行助手案例展示了如何实现任务分解与并行执行。

2026-04-21 23:58:00 837

原创 MCP协议深度解析：AI应用的Type-C时代已来

摘要：MCP（Model Context Protocol）是Anthropic提出的AI工具集成协议，旨在解决传统工具调用中描述不一致、重复开发等问题。该协议采用标准化设计，支持stdio、SSE和Streamable-HTTP三种传输方式，实现工具"一次编写，到处调用"。文章详细介绍了MCP的核心架构、三种传输方式的实现方法，以及如何与LangChain框架集成。MCP通过工具自描述机制、统一调用规范，显著提升了AI应用开发效率，特别适用于构建插件化、可扩展的智能代理系统。

2026-04-21 13:13:02 584

原创 Dify平台入门指南：开源LLM应用开发平台深度解析

Dify是一款开源LLM应用开发平台，采用BaaS模式为开发者提供一体化解决方案。平台支持多模型接入、RAG引擎和灵活的工作流编排，适合企业级AI应用开发。相比Coze更偏向开发者需求，Dify强调私有化部署和复杂应用构建能力。安装部署简单，支持Docker容器化运行。平台提供从模型微调、知识库构建到工作流设计的全流程工具，并可通过RAGFlow扩展复杂文档处理能力。Dify的核心优势在于开源可控、模型中立和完整的LLMOps支持，特别适合对数据安全和定制化要求高的生产环境。

2026-04-20 13:53:07 465

原创 Coze平台入门指南：从零搭建你的第一个AI智能体

Coze（扣子）是字节跳动推出的AI智能体开发平台，定位为“字节版GPTs”，核心价值是零代码、可视化搭建AI智能体。平台提供插件库（搜索、天气、企查查等）、工作流（拖拽式编排）、知识库（RAG检索）、数据库（结构化存储）等核心功能，支持多模态（文生图、语音合成、视频生成）和Multi-Agent多智能体协作。用户通过配置提示词、添加工作流即可创建智能体，一键发布到飞书、微信、抖音等渠道。同时提供Python SDK和API，支持将智能体集成到自有应用。简单说：Coze让不会编程的人也能让AI“动手做事”

2026-04-20 13:45:05 486

原创大模型Agent：让AI真正“动手”做事的智能体

《智能体Agent：从思考到行动的AI进化》 Agent是新一代人工智能助手，它突破传统聊天机器人的局限，具备自主规划、调用工具和执行任务的能力。Agent的核心架构由大模型大脑、记忆系统和工具库组成，能够将复杂任务拆解为可执行步骤，并通过调用计算器、搜索引擎等外部工具完成任务。其工作流程包含任务规划、工具选择、行动执行和结果反思等环节，支持多Agent间的标准化协作。随着MCP工具协议和A2A交互协议的发展，Agent正从实验阶段迈向工业化应用，代表了大模型技术落地的未来方向。

2026-04-20 13:26:29 326

原创 RAG 项目完整学习笔记与总结

本文介绍了一个生产级多层RAG问答系统的设计实现。系统采用三级检索降级机制（Redis缓存→BM25关键词检索→Milvus向量检索），支持多轮对话和流式输出。核心创新包括：父子文档切分策略（子块精准检索+父块完整上下文）、混合检索（稠密向量+稀疏向量）、两阶段排序（加权初筛+精排）、BERT分类器过滤通用问题、LLM路由选择检索策略。系统采用模块化设计，包含文档加载、文本切分、向量存储、检索策略等独立组件，支持PDF/Word/PPT/图片等多种格式，通过自动历史清理和两级缓存优化性能。

2026-04-16 21:20:39 691

原创企业级模块化RAG项目(mysql➕redis➕milvus➕模型微调➕bm25➕fastapi➕ollama➕Prompt➕多策略选择)

本文介绍了一个基于多层RAG（检索增强生成）架构的问答系统项目。该系统采用模块化设计，包含基础模块（配置管理、日志系统）、数据层（MySQL数据库、Redis缓存）、检索模块（BM25和混合检索）以及RAG核心模块（文档处理、向量存储、策略选择等）。核心功能包括：支持多种文档格式（PDF/Word/PPT等）的加载和OCR处理中文文本递归切分和语义切分混合检索策略（直接检索/HyDE/子查询/回溯问题）流式响应和对话历史管理 FastAPI Web服务和WebSocket

2026-04-16 21:12:48 325

原创从零到一构建企业级 RAG 问答系统：一个完整的模块化实践指南

本文介绍了一个企业级模块化RAG问答系统的完整实现方案。该系统针对在线教育平台需求，支持多格式文档处理、智能检索和多轮对话。核心创新包括：1）采用父子文档策略实现精准检索与完整上下文的平衡；2）混合检索机制结合稠密/稀疏向量；3）LLM路由智能选择检索策略；4）流式输出提升用户体验。系统架构采用模块化设计，包含文档加载、文本切分、向量存储、查询分类等核心模块，支持三级检索降级机制。关键技术选型包括Milvus、BGE-M3、BERT等，实现了毫秒级响应和90%以上的分类准确率。

2026-04-16 20:28:11 722

原创检索增强生成RAG项目tools_04:flask➕fastapi➕高并发

本文深入探讨了RAG系统中Web服务的并发性能优化，对比了Flask（同步）和FastAPI（异步）两种框架。重点分析了三种并发模型：多进程适合CPU密集型任务，多线程适合IO密集型任务，协程则能实现超高并发IO处理。通过实验验证了FastAPI采用单线程事件循环+协程的架构优势，在IO密集型场景下可轻松支持上万并发请求，而传统多线程方案则会面临内存爆炸问题。文章还提供了RAG系统的框架选型建议、性能优化技巧和常见陷阱，强调异步非阻塞编程对提升系统吞吐量的重要性。

2026-04-13 16:44:00 499

原创检索增强生成RAG项目tools_03:mysql➕redis➕milvus

本文介绍了RAG系统中三种关键数据库的应用：MySQL存储结构化业务数据（文档元数据、用户信息等），Redis作为高速缓存（热点查询、会话管理等），Milvus负责向量存储与相似性检索。三者协同工作，共同支撑RAG系统的数据架构。文章详细说明了各数据库的基础操作、优化技巧及在RAG中的典型应用场景，如MySQL的批量插入优化、Redis的缓存策略设计、Milvus的索引选择和分区管理等，并提供了完整的RAG数据流实现示例。最后强调三种数据库各司其职，合理搭配使用是构建高效RAG系统的关键。

2026-04-13 15:03:20 812

原创检索增强生成RAG项目tools_02:ollama➕logging➕bm25

本文介绍了RAG系统中的三个核心工具：Ollama本地大模型部署、Logging日志系统和BM25检索算法。Ollama部分详细讲解了四种调用模式（基础聊天、流式输出、远程调用和原始HTTP请求）及其适用场景；Logging系统重点说明了日志级别、格式设置和文件输出等配置方法；BM25部分则分析了其相比TF-IDF的优势，并提供了中文分词实现代码。文章最后展示了如何将这些工具整合到一个简单的RAG系统中，实现从问题检索到答案生成的完整流程。通过这三个工具的协同工作，可以构建一个高效可靠的RAG系统基础框架。

2026-04-13 13:37:07 582

原创检索增强生成RAG项目tools_01:Docker 极简实战

工欲善其事，必先利其器。对于大模型开发工程师而言，Docker 并非需要深究的运维工具，而是值得掌握的效率杠杆。本文总结了 8 个命令覆盖 95% 日常场景的核心实践：docker compose up -d 一键拉起 Milvus、Redis、MySQL 整套环境，logs 与 exec 快速排错，system prune 定期清理。同时记录了国内网络下配置代理、开启 (●'◡'●) 局域网连接等实战踩坑经验。

2026-04-12 20:28:37 636

原创 RAG前身:基于mysql➕redis➕bm25的传统QA问答系统

本文详细介绍了基于传统检索技术的智能问答系统构建过程。系统采用分层架构设计，包含配置管理、日志记录、MySQL数据存储、Redis缓存和BM25检索等核心模块。通过jieba分词处理中文查询，利用BM25算法计算问题相似度，并结合Softmax归一化进行阈值判断。系统实现了问答数据的持久化存储、高效检索和结果缓存功能，具有良好的安全性和可扩展性。文章还分析了各模块的设计思路、代码实现细节，并提出了优化建议，如增加内存存储、改进检索效率等。该系统为中小规模问答场景提供了高性价比的解决方案。

2026-04-10 23:14:52 198 2

原创企业级 Python 项目实战排坑全记录

本文总结了Python企业级项目开发中的核心实践要点，主要包括：1）包管理规范（init.py的必要性）；2）导入机制（相对与绝对导入的使用场景）；3）运行方式（-m参数的重要性）；4）环境一致性（PyCharm与命令行的差异处理）；5）路径管理（动态构建路径的最佳实践）。文章提供了从项目结构、运行调试到生产部署的全流程解决方案，并附有详细的错误排查checklist和实用调试技巧，帮助开发者快速掌握企业级Python项目的标准化开发流程。

2026-04-09 13:58:49 499

原创 Python生产级日志封装完整解析_细节决定一切

本文详细介绍了Python生产环境日志系统的实现方案，重点讲解了日志轮转、异常记录和多模块管理等核心功能。文章从基础导入模块开始，逐步解析了日志器的创建、处理器配置、格式设置等关键步骤，并提供了避免重复添加Handler的防护机制。针对生产环境需求，特别强调了日志目录自动创建、UTF-8编码支持、多进程安全等实践要点。通过多个实用示例展示了不同场景下的日志记录方式，包括异常堆栈捕获、Web框架集成等。最后给出了可直接用于生产环境的完整模板代码，涵盖日志级别控制、轮转策略和环境变量配置等功能。

2026-04-08 16:08:14 535

原创 LangChain 1.x RAG完全指南：从传统检索到Agentic RAG，一篇搞定！

本文系统讲解基于LangChain 1.x的RAG开发技术。从传统信息检索（数据库、全文检索、个性化推荐）的演进与局限出发，深入剖析RAG“数据入库+用户检索”双流原理。通过完整项目实战，展示文档加载、文本切块、向量化、向量库存储、检索生成等核心组件的生产级实现。最后进阶到Agentic RAG，演示如何让大模型自主调用工具（检索、发邮件）完成复杂任务。全文涵盖理论、代码与最佳实践，帮助开发者从零构建智能、可控的RAG应用。

2026-04-07 23:00:18 834

原创 LangChain 1.x 入门指南：从智能体到实战案例

LangChain1.x大模型应用开发实战指南摘要：本文系统介绍了LangChain1.x框架的核心功能与开发实践。作为当前最流行的大模型应用开发框架，LangChain1.x通过智能体架构、统一API和LangGraph底层支持，显著降低了开发门槛。文章详细解析了智能体的核心组件（大模型、规划能力、工具调用等），对比了主流智能体框架特点，并重点演示了LangChain1.x的四大改进：底层架构升级、API整合、中间件支持和DeepAgent库。通过案例解析,深入浅出展示langchain框架业务流程.

2026-04-06 21:47:44 986

空空如也

空空如也