自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 从零搭建个人科研Agent:混合模型策略与LangGraph核心闭环实战

项目摘要: ScholarCraft 是一个基于本地与云端混合模型的科研调研Agent,旨在通过自主规划、工具调用和论文阅读生成结构化报告。项目采用 LangGraph + Ollama(Qwen3-4B) + 小米MiMoAPI 技术栈,已完成核心闭环(任务规划→工具调用→联网检索→报告生成),并集成 MCP协议 和 迭代式检索机制。 核心能力: 任务规划:通过MiMoAPI拆解模糊需求为结构化步骤。 工具调用:支持本地检索、arXiv联网检索、论文详情读取及报告保存。 MCP协议:标准化工具接口,实现工

2026-05-09 11:50:21 237

原创 从0到1搭建企业级RAG系统(八·终章):全栈整合与回顾 — LiteRAG 最终形态

本文总结了LiteRAG项目从规划到落地的完整开发历程。作者最初规划了包含多模态支持、用户权限管理等功能的"大而全"架构,但在实际开发中聚焦于RAG核心链路的深度优化。项目最终实现了混合检索(加权RRF融合)、Reranker精排、自动化评估闭环等核心功能,并建立了完整的监控体系。通过技术选型调整(如BGE-M3嵌入模型、Qwen3.5-Flash API等)和持续优化,关键指标如Context Recall从0.50提升到0.80。文章详细展示了系统架构、技术栈和核心模块,分享了&qu

2026-05-06 20:22:46 428

原创 从0到1搭建企业级RAG系统(七):从监控到持久化——系统可靠性的最后两块拼图

本文主要介绍了如何完善LiteRAG系统的监控和会话持久化功能。在监控方面,通过修复Prometheus抓取链路、配置Grafana仪表板并实现自动加载,建立了全链路监控闭环。在会话管理方面,采用SQLite+Redis双写方案,实现了对话历史的服务重启不丢失和前端刷新不丢失。这些改进使得LiteRAG从一个仅能回答问题的系统,转变为具备可靠性和可观测性的实用产品。文章详细记录了从问题定位到解决方案的实施过程,包括Prometheus网络配置、SQLite数据库设计、前后端协同改造等关键环节。

2026-05-06 20:03:38 554

原创 从0到1搭建企业级RAG系统(六):性能突围——从0.50到0.80的召回率翻身仗

《从0.50到0.80:LiteRAG召回率优化实战》记录了将RAG系统核心指标全面优化的完整过程。文章首先通过RAGAS评估框架发现初始系统存在高精度低召回问题(ContextRecall仅0.50),随后通过代码审计发现4个P0级缺陷,包括查询改写禁用、缓存设计缺陷等。核心优化包括:升级多语言Embedding模型、强化专业术语分词、引入加权RRF融合算法,最终将召回率提升60%至0.80,精准率达0.97。文章特别强调了量化评估的重要性,以及处理中英文混合检索时的工程技巧,为RAG系统优化提供了可复用

2026-04-26 20:16:33 758

原创 实现一个 KV Cache 卸载引擎:用 C++ 把大模型的显存压力赶到磁盘上去

本文探讨了大模型推理中KVCache显存管理的核心问题与解决方案。随着上下文长度增加,KVCache显存占用呈线性增长(4096token即需2GB显存),成为推理瓶颈。作者提出通过分层存储架构(GPU显存→CPU内存→SSD)实现KVCache卸载,并开发了一个500行C++原型系统,包含三大关键技术:内存池管理(预分配对齐内存)、LRU驱逐策略(O(1)复杂度双向链表实现)、磁盘序列化(二进制格式存储)。测试显示在0.5MB内存限制下,系统能正确处理20,000个CacheBlock,磁盘加载延迟仅7微

2026-04-24 15:38:13 745

原创 【大模型微调实战】第5期:从SFT三轮修复到部署量化探索——在6GB显卡上的收官之战

本文记录了从SFT模型修复到部署探索的全过程。在发现SFTv1模型存在选择性遗忘和概念理解错误后,通过三轮数据迭代(强制详述、问题改写等策略)将模型打磨至可用状态,成功解决了80%的核心问题。随后在6GB显卡环境下探索了多种部署方案(vLLM、bitsandbytes、llama.cpp、GPTQ),最终获得FP16基线数据并形成4-bit量化收益预估。项目完整呈现了模型训练与部署中的典型挑战,包括数据质量决定模型上限、评估体系前置的重要性,以及在资源受限环境下的技术选型权衡。文章特别强调了真实工程实践中失

2026-04-22 21:59:27 361

原创 【大模型微调实战】第4期:从失败到迭代终局——SFT三轮修复与DPO复盘全记录前言

本文记录了作者在DPO偏好对齐失败后,通过三轮迭代修复SFT模型的过程。首先发现SFTv1存在选择性遗忘和概念理解错误,通过建立10道标准测试题进行全面评估。第一轮采用强制详述策略补充41条样本,修复了部分问题但仍存在泛化不足;第二轮通过问题改写策略建立简单问法与详述回答的直接映射,使80%的评估题达标。最终选定SFTv3为最终模型,并总结了DPO失败的四大原因及改进方案。文章强调数据质量决定模型上限、评估体系必须前置的工程经验,展示了从失败到修复的完整技术思考路径。

2026-04-22 14:36:24 404

原创 【大模型微调实战】第3期:偏好对齐的“翻车”与复盘——74条数据如何让我的模型变平庸

本文记录了作者在DPO(直接偏好优化)阶段的实验过程及失败经验。通过74条偏好数据对SFT模型进行优化训练后,模型表现反而出现倒退:回答深度不足,结构趋向平庸。分析发现三个核心问题:SFT模型存在选择性遗忘现象,DPO数据量过小且标注存在噪声,评估体系不完善。作者总结了数据质量、阶段评估的重要性,并提出了扩充数据、人工复核等优化方向。这次"翻车"经历揭示了小规模DPO训练对数据质量的高度敏感性,为消费级显卡上的大模型微调提供了宝贵教训。完整代码和数据集已开源供参考。

2026-04-21 21:19:52 382

原创 【大模型微调实战】第2期:从“懂行”到“会用”——523条数据让存储模型学会专业问答

本文详细记录了存储领域大模型SFT(监督微调)的全过程。作者通过三层策略构建了523条高质量指令数据,包括手写核心样本和API批量生成数据。在6GB显存的限制下,采用QLoRA(4bit)和rank=8的配置完成微调,loss从2.43降至1.62。效果评估显示,SFT模型在专业术语使用、回答结构化和自然度方面显著提升,但也暴露出概念泛化不足的问题。文章还总结了数据生成、格式处理和显存优化等实战经验,为后续DPO对齐和模型部署奠定了基础。整个过程展现了如何通过精准的数据构建和参数调优,在有限资源下实现模型能

2026-04-20 23:01:05 291

原创 【大模型微调实战】第1期:在6GB笔记本上跑通存储领域CPT全记录

本文记录了一位开发者使用RTX3060笔记本(6GB显存)微调Qwen3-4B大模型的完整过程。作者首先在Windows环境搭建失败后转向WSL2,经过三次模型选型最终确定使用Qwen3-4B-Instruct纯文本模型。通过收集12份存储领域文档,提取清洗后获得4790条训练样本。训练采用4bit量化+LoRA技术,在31分钟内完成,显存峰值控制在5.5GB。评估发现,虽然初始测试集表现不佳,但在专业存储技术测试集上困惑度降低了21.2%,证明模型已掌握领域知识。文章总结了Windows环境不适用、多模态

2026-04-20 17:21:26 380

原创 从0到1搭建企业级RAG系统(五):多轮对话、查询改写与智能前端——迈向生产级交互

本文介绍了如何将LiteRAG系统从单轮问答升级为具备多轮对话能力、记忆功能和友好界面的智能助手。主要改进包括:1) 实现查询改写功能处理指代问题;2) 基于Redis设计多轮对话会话管理;3) 部署本地LLM解决云端API不稳定问题;4) 重构Gradio界面支持多会话管理。文章详细记录了技术方案选择、实现细节和问题排查过程,特别分享了持续10小时的缓存污染问题排查经历,最终使系统在忠实度、相关性和检索精准度等指标上均达到优秀。系统现已支持41篇文章的知识库检索,实现毫秒级响应,并具备接近ChatGPT

2026-04-18 20:50:55 577

原创 从0到1搭建企业级RAG系统(四):混合检索、Reranker精排、双层缓存与端到端问答实战

本文详细介绍了企业级RAG系统的核心模块实现,重点解决了从知识库到智能问答的全链路优化问题。系统采用混合检索(向量+BM25+RRF融合)提升召回效果,引入Reranker精排模块提高答案质量,并通过双层缓存架构(L1精确缓存+L2语义缓存)将响应时间从20秒降至毫秒级。文章不仅提供了代码实现细节和踩坑经验,还分析了当前系统的局限性,并规划了查询改写、动态阈值等优化方向,为构建生产级RAG系统提供了完整参考方案。

2026-04-17 16:40:24 1492

原创 从0到1搭建企业级RAG系统(三):文档向量化、AI爬虫实战与知识库规模化

本文详细介绍了如何从零构建一个企业级RAG系统的知识库模块。主要内容包括:1)设计Milvus向量数据库Schema并实现连接管理;2)开发支持多格式的文档分块模块;3)构建数据灌入流程,将14篇高质量AI领域文章处理为718个文本块;4)实现混合检索(向量+关键词)和Reranker精排模块,通过实验验证Reranker能有效纠正检索偏差;5)完成工程规范化,包括依赖管理、目录结构和问题排查记录。最终系统具备384维向量、混合检索和本地化Reranker能力,为后续问答环节打下坚实基础。

2026-04-17 10:33:49 850

原创 从0到1搭建企业级RAG系统(二):整合 Redis、Prometheus 与 Grafana,打造完整基础设施

本文介绍了在企业级RAG系统中整合Redis缓存、Prometheus监控和Grafana仪表盘的全过程。通过修改docker-compose.yml文件追加三个新服务,配置Prometheus抓取指标,并详细记录了网络冲突、权限拒绝等典型问题的排查方法。文章提供了WSL2环境下的解决方案,包括清理冲突网络、设置目录权限等实用技巧,最终实现了6个服务同时运行的稳定状态。同时给出了Milvus数据库连通性测试的正确方法,避免了过时教程的误区。文末还列出了常见问题的速查清单,为后续开发打下了坚实的技术基础。

2026-04-16 19:20:34 514

原创 从0到1搭建企业级RAG系统

本文记录了从零开始搭建企业级RAG系统的环境准备阶段,重点介绍了Milvus向量数据库的部署过程。作者使用Windows11+WSL2 Ubuntu22.04的开发环境,详细说明了Docker安装、GPU支持配置以及国内镜像加速设置。文章提供了完整的Milvus部署指南,包括docker-compose配置、服务验证和Python客户端连接测试,并分享了项目目录结构设计的最佳实践。作为系列教程的第一篇,本文为后续RAG系统开发奠定了坚实基础,涵盖了工程落地的关键环节,为AI学习者提供了具有生产参考价值的实战

2026-04-16 17:32:48 759

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除