WuYM03-CSDN博客

原创从零搭建个人科研Agent：混合模型策略与LangGraph核心闭环实战

项目摘要： ScholarCraft 是一个基于本地与云端混合模型的科研调研Agent，旨在通过自主规划、工具调用和论文阅读生成结构化报告。项目采用 LangGraph + Ollama（Qwen3-4B） + 小米MiMoAPI 技术栈，已完成核心闭环（任务规划→工具调用→联网检索→报告生成），并集成 MCP协议和迭代式检索机制。核心能力：任务规划：通过MiMoAPI拆解模糊需求为结构化步骤。工具调用：支持本地检索、arXiv联网检索、论文详情读取及报告保存。 MCP协议：标准化工具接口，实现工

2026-05-09 11:50:21 237

原创从0到1搭建企业级RAG系统（八·终章）：全栈整合与回顾 — LiteRAG 最终形态

本文总结了LiteRAG项目从规划到落地的完整开发历程。作者最初规划了包含多模态支持、用户权限管理等功能的"大而全"架构，但在实际开发中聚焦于RAG核心链路的深度优化。项目最终实现了混合检索（加权RRF融合）、Reranker精排、自动化评估闭环等核心功能，并建立了完整的监控体系。通过技术选型调整（如BGE-M3嵌入模型、Qwen3.5-Flash API等）和持续优化，关键指标如Context Recall从0.50提升到0.80。文章详细展示了系统架构、技术栈和核心模块，分享了&qu

2026-05-06 20:22:46 428

原创从0到1搭建企业级RAG系统（七）：从监控到持久化——系统可靠性的最后两块拼图

本文主要介绍了如何完善LiteRAG系统的监控和会话持久化功能。在监控方面，通过修复Prometheus抓取链路、配置Grafana仪表板并实现自动加载，建立了全链路监控闭环。在会话管理方面，采用SQLite+Redis双写方案，实现了对话历史的服务重启不丢失和前端刷新不丢失。这些改进使得LiteRAG从一个仅能回答问题的系统，转变为具备可靠性和可观测性的实用产品。文章详细记录了从问题定位到解决方案的实施过程，包括Prometheus网络配置、SQLite数据库设计、前后端协同改造等关键环节。

2026-05-06 20:03:38 554

原创从0到1搭建企业级RAG系统（六）：性能突围——从0.50到0.80的召回率翻身仗

《从0.50到0.80：LiteRAG召回率优化实战》记录了将RAG系统核心指标全面优化的完整过程。文章首先通过RAGAS评估框架发现初始系统存在高精度低召回问题（ContextRecall仅0.50），随后通过代码审计发现4个P0级缺陷，包括查询改写禁用、缓存设计缺陷等。核心优化包括：升级多语言Embedding模型、强化专业术语分词、引入加权RRF融合算法，最终将召回率提升60%至0.80，精准率达0.97。文章特别强调了量化评估的重要性，以及处理中英文混合检索时的工程技巧，为RAG系统优化提供了可复用

2026-04-26 20:16:33 758

原创实现一个 KV Cache 卸载引擎：用 C++ 把大模型的显存压力赶到磁盘上去

本文探讨了大模型推理中KVCache显存管理的核心问题与解决方案。随着上下文长度增加，KVCache显存占用呈线性增长（4096token即需2GB显存），成为推理瓶颈。作者提出通过分层存储架构（GPU显存→CPU内存→SSD）实现KVCache卸载，并开发了一个500行C++原型系统，包含三大关键技术：内存池管理（预分配对齐内存）、LRU驱逐策略（O(1)复杂度双向链表实现）、磁盘序列化（二进制格式存储）。测试显示在0.5MB内存限制下，系统能正确处理20,000个CacheBlock，磁盘加载延迟仅7微

2026-04-24 15:38:13 745

原创【大模型微调实战】第5期：从SFT三轮修复到部署量化探索——在6GB显卡上的收官之战

本文记录了从SFT模型修复到部署探索的全过程。在发现SFTv1模型存在选择性遗忘和概念理解错误后，通过三轮数据迭代（强制详述、问题改写等策略）将模型打磨至可用状态，成功解决了80%的核心问题。随后在6GB显卡环境下探索了多种部署方案（vLLM、bitsandbytes、llama.cpp、GPTQ），最终获得FP16基线数据并形成4-bit量化收益预估。项目完整呈现了模型训练与部署中的典型挑战，包括数据质量决定模型上限、评估体系前置的重要性，以及在资源受限环境下的技术选型权衡。文章特别强调了真实工程实践中失

2026-04-22 21:59:27 361

原创【大模型微调实战】第4期：从失败到迭代终局——SFT三轮修复与DPO复盘全记录前言

本文记录了作者在DPO偏好对齐失败后，通过三轮迭代修复SFT模型的过程。首先发现SFTv1存在选择性遗忘和概念理解错误，通过建立10道标准测试题进行全面评估。第一轮采用强制详述策略补充41条样本，修复了部分问题但仍存在泛化不足；第二轮通过问题改写策略建立简单问法与详述回答的直接映射，使80%的评估题达标。最终选定SFTv3为最终模型，并总结了DPO失败的四大原因及改进方案。文章强调数据质量决定模型上限、评估体系必须前置的工程经验，展示了从失败到修复的完整技术思考路径。

2026-04-22 14:36:24 404

原创【大模型微调实战】第3期：偏好对齐的“翻车”与复盘——74条数据如何让我的模型变平庸

本文记录了作者在DPO（直接偏好优化）阶段的实验过程及失败经验。通过74条偏好数据对SFT模型进行优化训练后，模型表现反而出现倒退：回答深度不足，结构趋向平庸。分析发现三个核心问题：SFT模型存在选择性遗忘现象，DPO数据量过小且标注存在噪声，评估体系不完善。作者总结了数据质量、阶段评估的重要性，并提出了扩充数据、人工复核等优化方向。这次"翻车"经历揭示了小规模DPO训练对数据质量的高度敏感性，为消费级显卡上的大模型微调提供了宝贵教训。完整代码和数据集已开源供参考。

2026-04-21 21:19:52 382

原创【大模型微调实战】第2期：从“懂行”到“会用”——523条数据让存储模型学会专业问答

本文详细记录了存储领域大模型SFT（监督微调）的全过程。作者通过三层策略构建了523条高质量指令数据，包括手写核心样本和API批量生成数据。在6GB显存的限制下，采用QLoRA(4bit)和rank=8的配置完成微调，loss从2.43降至1.62。效果评估显示，SFT模型在专业术语使用、回答结构化和自然度方面显著提升，但也暴露出概念泛化不足的问题。文章还总结了数据生成、格式处理和显存优化等实战经验，为后续DPO对齐和模型部署奠定了基础。整个过程展现了如何通过精准的数据构建和参数调优，在有限资源下实现模型能

2026-04-20 23:01:05 291

原创【大模型微调实战】第1期：在6GB笔记本上跑通存储领域CPT全记录

本文记录了一位开发者使用RTX3060笔记本（6GB显存）微调Qwen3-4B大模型的完整过程。作者首先在Windows环境搭建失败后转向WSL2，经过三次模型选型最终确定使用Qwen3-4B-Instruct纯文本模型。通过收集12份存储领域文档，提取清洗后获得4790条训练样本。训练采用4bit量化+LoRA技术，在31分钟内完成，显存峰值控制在5.5GB。评估发现，虽然初始测试集表现不佳，但在专业存储技术测试集上困惑度降低了21.2%，证明模型已掌握领域知识。文章总结了Windows环境不适用、多模态

2026-04-20 17:21:26 380

原创从0到1搭建企业级RAG系统（五）：多轮对话、查询改写与智能前端——迈向生产级交互

本文介绍了如何将LiteRAG系统从单轮问答升级为具备多轮对话能力、记忆功能和友好界面的智能助手。主要改进包括：1) 实现查询改写功能处理指代问题；2) 基于Redis设计多轮对话会话管理；3) 部署本地LLM解决云端API不稳定问题；4) 重构Gradio界面支持多会话管理。文章详细记录了技术方案选择、实现细节和问题排查过程，特别分享了持续10小时的缓存污染问题排查经历，最终使系统在忠实度、相关性和检索精准度等指标上均达到优秀。系统现已支持41篇文章的知识库检索，实现毫秒级响应，并具备接近ChatGPT

2026-04-18 20:50:55 577

原创从0到1搭建企业级RAG系统（四）：混合检索、Reranker精排、双层缓存与端到端问答实战

本文详细介绍了企业级RAG系统的核心模块实现，重点解决了从知识库到智能问答的全链路优化问题。系统采用混合检索（向量+BM25+RRF融合）提升召回效果，引入Reranker精排模块提高答案质量，并通过双层缓存架构（L1精确缓存+L2语义缓存）将响应时间从20秒降至毫秒级。文章不仅提供了代码实现细节和踩坑经验，还分析了当前系统的局限性，并规划了查询改写、动态阈值等优化方向，为构建生产级RAG系统提供了完整参考方案。

2026-04-17 16:40:24 1492

原创从0到1搭建企业级RAG系统（三）：文档向量化、AI爬虫实战与知识库规模化

本文详细介绍了如何从零构建一个企业级RAG系统的知识库模块。主要内容包括：1）设计Milvus向量数据库Schema并实现连接管理；2）开发支持多格式的文档分块模块；3）构建数据灌入流程，将14篇高质量AI领域文章处理为718个文本块；4）实现混合检索（向量+关键词）和Reranker精排模块，通过实验验证Reranker能有效纠正检索偏差；5）完成工程规范化，包括依赖管理、目录结构和问题排查记录。最终系统具备384维向量、混合检索和本地化Reranker能力，为后续问答环节打下坚实基础。

2026-04-17 10:33:49 850

原创从0到1搭建企业级RAG系统（二）：整合 Redis、Prometheus 与 Grafana，打造完整基础设施

本文介绍了在企业级RAG系统中整合Redis缓存、Prometheus监控和Grafana仪表盘的全过程。通过修改docker-compose.yml文件追加三个新服务，配置Prometheus抓取指标，并详细记录了网络冲突、权限拒绝等典型问题的排查方法。文章提供了WSL2环境下的解决方案，包括清理冲突网络、设置目录权限等实用技巧，最终实现了6个服务同时运行的稳定状态。同时给出了Milvus数据库连通性测试的正确方法，避免了过时教程的误区。文末还列出了常见问题的速查清单，为后续开发打下了坚实的技术基础。

2026-04-16 19:20:34 514

原创从0到1搭建企业级RAG系统

本文记录了从零开始搭建企业级RAG系统的环境准备阶段，重点介绍了Milvus向量数据库的部署过程。作者使用Windows11+WSL2 Ubuntu22.04的开发环境，详细说明了Docker安装、GPU支持配置以及国内镜像加速设置。文章提供了完整的Milvus部署指南，包括docker-compose配置、服务验证和Python客户端连接测试，并分享了项目目录结构设计的最佳实践。作为系列教程的第一篇，本文为后续RAG系统开发奠定了坚实基础，涵盖了工程落地的关键环节，为AI学习者提供了具有生产参考价值的实战

2026-04-16 17:32:48 759

CSDN1515595030的博客