忧郁的橙子.-CSDN博客

原创 02-LangChain简单介绍、RAG开发

摘要：本文介绍了LangChain框架和RAG技术。LangChain是一个围绕大语言模型(LLMs)建立的开发框架，提供通用接口简化LLM应用开发。RAG(检索增强生成)通过检索外部知识解决LLM的时效性、专业性和幻觉问题，包含索引、检索、生成三个阶段。重点讲解了文本向量化原理和余弦相似度计算方法，以及LangChain中的模型类型(LLMs、ChatModels、Embeddings)使用方式。最后介绍了提示词模板(PromptTemplate)的应用，支持变量注入优化提示词。

2026-04-02 15:35:50 319

原创 01-提示词工程、OpenAI库的基础使用

千问api+提示词基本使用

2026-04-01 14:33:26 401

原创 19-基于RAG的法律条文智能助手-实现、微调、部署

本文介绍了基于RAG（检索增强生成）技术的智能法律咨询系统实现方案。系统通过结合向量检索与大语言模型，实现了精准的法律条文问答功能。主要内容包括：1）系统架构设计，采用两阶段检索机制（向量初筛+重排序精排）；2）关键技术实现，如微调修复特定问题、重排序优化、vLLM推理加速等；3）评估体系构建，包括召回率测试和端到端效果评估；4）Streamlit可视化界面开发，提供交互式查询体验。系统部署采用vLLM加速推理，并通过测试案例验证了优化效果，显著提升了法律条款检索的准确性和回答质量。

2026-03-31 20:05:36 518

原创 18-LlamaIndex 基于RAG的法律条文智能助手-方案与数据

LlamaIndex 基础环境安装、专家系统的技术决策RAG VS 微调

2026-03-31 09:59:01 373

原创 17-多模态大模型的概念与本地部署调用

本文介绍了多模态的概念及其应用。模态指数据存在的形态，如视觉、听觉、文本等，多模态则涉及从多个模态表达或感知事物。文章阐述了多模态学习的定义和典型任务，包括跨模态预训练、视听语音识别、视觉问答等。此外，还详细介绍了两个多模态大模型的本地部署方法：CogVideoX-5B文生视频模型和Llama-3.2-Vision视觉问答模型，包括环境安装、模型下载和运行代码。这些模型在视觉识别、图像推理等领域具有广泛应用前景。

2026-03-30 15:37:44 367

原创 16-LMDeploy 量化部署与分布式推理

本文介绍了大模型分布式推理与量化部署的技术方案。主要内容包括：1. 分布式推理技术，通过张量并行和流水线并行解决单卡显存不足问题，重点讲解了vLLM和LMDeploy框架的实现方式；2. LMDeploy量化部署方案，详细说明了W4A16权重量化、KV Cache量化等优化技术，可将7B模型从15G压缩到4.9G；3. 实际部署流程，包括环境配置、模型验证、量化转换、TurboMind格式转换等步骤；4. 演示了通过Gradio构建网页交互界面的方法。这些技术能有效降低大模型部署成本，提升推理效率。

2026-03-30 14:14:06 466

原创 15-OpenCompass模型评估

OpenCompass是一个开源的大模型评测工具，支持70+数据集和多种评估指标。它提供命令行和配置文件两种评测方式，支持准确率、困惑度、生成质量等核心指标。数据集分为选择题和问答题两种格式，涵盖知识、推理、语言等五大能力维度。用户可通过自定义数据集路径快速评测，也支持多卡并行评估。安装时需创建Python 3.10环境，通过conda管理依赖关系。该工具特别适合需要对比不同大模型性能的研究场景，提供从数据准备到结果分析的全流程支持。

2026-03-28 14:05:21 355

原创 14-情绪对话模型-训练篇 -- 微调项目实战

本文介绍了基于Qwen1.5大模型的微调与部署全流程。首先对比了不同情绪风格的训练数据集配置，详细说明了数据生成函数和过滤规则。然后介绍了模型量化、格式转换和选型方法，针对中文对话任务选择Qwen1.5-1.8B模型进行评估。在训练环节，提供了完整的xtuner配置方案，包括参数设置、数据加载和优化策略。最后演示了如何将训练好的模型转换为LMDeploy格式，并通过Streamlit构建Web交互界面。整个流程涵盖了从数据处理、模型训练到应用部署的关键步骤，实现了端到端的大模型微调解决方案。

2026-03-26 20:32:41 353

原创 13-情绪对话模型-数据工程篇、大模型微调项目实战

本文介绍了基于大模型的情感对话系统开发流程，主要包括：1.环境准备（模型下载与安装）；2.情绪对话模型实现，包含数据生成、风格模板配置（温柔/毒舌/暖心等风格）、质量审核规则；3.数据集制作方法，包括数据清洗、采样和人工审核；4.不同风格Prompt设计要点（如温柔客服需使用敬语，毒舌风格需包含网络流行语）。文中提供了完整的代码实现，涵盖模型初始化、数据生成、语义相似度检查等关键步骤，并推荐了LCCC-large等开源对话数据集作为基础数据来源。

2026-03-25 19:19:23 366

原创 12-大模型压缩预训练、知识蒸馏

深度学习模型压缩技术（剪枝、量化、知识蒸馏）助力AI部署突破算力瓶颈。剪枝通过参数归零降低复杂度，分结构/非结构两种方式；量化将FP32转为INT8，显著减少存储和计算量；知识蒸馏让小模型学习大模型知识，实现性能与效率平衡。以DeepSeek为例，蒸馏技术使训练成本降至OpenAI的1/20，推理速度提升3倍，并支持边缘部署。这些技术在降低算力需求、加速推理、推动行业应用等方面发挥关键作用，特别是在国产芯片适配方面具有重要意义。

2026-03-25 14:20:06 365

原创 11-Xtuner具体使用以及LLama Factory与Xtuner多卡微调大模型

本文系统介绍了大模型分布式训练技术及微调实践。主要内容包括：1）分布式训练的核心技术（数据并行、模型并行、流水线并行）及DeepSpeed框架的ZeRO优化技术；2）使用XTuner微调Qwen1.5-0.5B模型的完整流程，涵盖环境配置、数据准备、训练参数设置、模型转换与合并；3）实操环节详细演示了在3090显卡上的单卡/多卡微调过程，包括数据处理、配置文件修改、训练启动等关键步骤；4）针对环境配置中的常见问题（如bitsandbytes版本冲突）提供了解决方案。通过实践验证了XTuner框架在资源受限环

2026-03-25 10:57:44 596 3

原创 10-微调部署不一致 // vLLM与LMDeploy如何自定义对话模板

对话模板是一套规则，用于将用户的多轮对话格式化为一个单一的、模型能够理解的字符串。特殊令牌：如等。角色标识：如usersystem，用于区分系统、用户的发言。格式化规则：如何将不同角色的发言拼接起来。注意：不同的模型，其对话模板会存在差异性。

2026-03-23 20:31:39 387

原创 09-Ollama+open-webui部署模型 // 量化导出模型

本文介绍了AI模型量化部署的两个关键技术：1. 使用llama-factory进行模型量化操作，重点说明版本选择(推荐0.9.3)、环境配置、量化等级选择(建议4bit/8bit)及精度测试方法；2. 通过OpenWebUI部署量化模型，详细说明Ollama服务安装、Python虚拟环境配置(需3.11版本)、依赖安装及端口转发设置，最终实现本地或远程服务器上的模型部署与对话交互。文章提供了完整的量化部署流程指南，包括常见问题的解决方案。

2026-03-23 16:06:42 462

原创 08-QLora微调&GGUF模型转换、Qwen打包部署 ollama 运行

本文介绍了大模型训练与优化的关键知识点：1. Loss图分析显示模型与数据集的匹配程度，模型崩溃时Loss会突增；2. 显存计算方法（如7B参数模型需约13GB显存）及量化技术（F16/F32）对精度的影响；3. 微调技术LoRA和QLoRA的原理及参数设置建议；4. GGUF格式的优势（兼容性、量化支持等）及转换方法；5. 使用ollama运行GGUF模型的具体步骤，包括安装、模型创建和启动流程。

2026-03-22 17:01:13 398

原创 07-大模型微调-LLama Factor微调Qwen -- 局部微调/训练医疗问答模型

本文介绍了使用LoRA（低秩自适应）技术高效微调大语言模型的方法，并重点演示了如何利用LLaMA Factory工具包实操。LoRA的核心思想是冻结原模型参数，仅训练注入的低秩矩阵，从而以极少的参数量（通常为原模型的0.1%~1%）实现高效微调，显著节省显存。LLaMA Factory是一个统一的微调框架，支持上百种模型，并提供无需编码的可视化Web界面，极大降低了使用门槛。文章以微调Qwen-7B模型制作医疗问答助手为例，详细展示了从环境配置、数据集准备、Web界面参数设置到训练与测试的完整流程。通过对比

2026-03-21 17:52:30 499

原创 06-大模型本地化部署：Ollama&vLLM&LMDeploy+ModelScope

本文介绍了四种大模型部署框架及服务器租用方案：1. Ollama轻量级本地框架，支持分片加载和量化，适合隐私敏感场景；2. vLLM高性能推理框架，采用PagedAttention技术提升吞吐量；3. LMDeploy国产优化方案，支持昇腾NPU和高效量化；4. ModelScope一站式中文模型平台。提供了从5元/天的GPU服务器租用（AutoDL/GPUShare）到各框架详细部署流程，包括环境配置、模型加载和API服务化。建议根据场景选择：个人开发用Ollama，高并发服务选vLLM，国产硬件适配LM

2026-03-20 17:03:37 948

原创 05-Hugging Face 微调训练 GPT2中文生成模型定制化+Transformer

本文介绍了GPT-2中文生成模型的应用与训练方法。主要内容包括：1）介绍了HuggingFace平台上的多个中文GPT-2模型，如白话文、歌词、文言文等生成模型；2）详细讲解了生成模型与判别模型的区别，以及生成模型的训练原理；3）提供了完整的训练流程，包括数据准备、模型加载、训练代码实现等；4）分析了生成模型测试中常见的问题，如参数冲突警告(max_new_tokens和max_length)、UNK字符处理等；5）给出了格式控制的解决方案，如强制添加标点符号等技巧。文章还包含多个实际应用示例，展示了不同场

2026-03-20 10:05:29 674

原创 04-自定义微调训练BERT模型效果测试 +中文八分类

摘要：本文介绍了BERT模型微调过程中的数据不均衡处理方法（优先补充少量数据）和三种微调方式（增量、局部、全局），分析了训练效果与成本的权衡。详细阐述了模型评估模块的实现，包括数据处理、模型架构、评估测试和交互应用四个模块。重点讲解了分类任务的评估指标（准确率、精确率、召回率、F1分数）及其计算方法，提供了混淆矩阵可视化和分类报告生成代码。最后展示了从二分类扩展到八分类的模型修改方法，并指出数据清洗对模型性能的重要性。所有代码模块（MyData.py、net.py、test.py、run.py）均实现完整功

2026-03-18 17:33:02 402

原创 03-Hugging Face 模型微调训练（基于 BERT 的中文评价情感分析）

本文介绍了基于BERT模型的情感分析任务微调流程。主要内容包括：1）模型微调的基本概念，即在预训练模型基础上进行特定任务的训练；2）数据处理流程，包括数据集加载、清洗和格式转换；3）BERT模型的词汇表操作和文本编码方法；4）下游任务模型设计，通过添加全连接层实现分类；5）完整的训练流程，包含数据加载、模型初始化、优化器设置和训练循环；6）模型评估方法，使用准确率、精确率和F1分数等指标；7）参数保存策略，根据验证集表现保存最优模型。文章提供了完整的代码实现，包括数据预处理、模型定义、训练和评估模块，为BE

2026-03-17 20:22:11 582

原创 02-Hugging Face 简单介绍

HuggingFace是目前最大的AI开源社区，提供先进的NLP工具和Transformer模型支持。用户可通过官网注册账户并安装transformers库，利用其庞大的模型库进行模型搜索、下载和本地调用。文章详细介绍了模型下载方法、本地调用流程（包括文本生成和分类任务），以及API使用方式。同时涵盖了datasets库的核心功能，如数据集加载和本地数据处理。针对网络问题，推荐使用魔搭社区作为替代下载方案，并强调调用API时需注意权限设置。

2026-03-17 16:46:34 365

原创 01-深度学习基础原理

本文系统介绍了机器学习与深度学习的基础知识，重点阐述了PyTorch框架的应用。主要内容包括：1）人工智能技术体系的分层关系，从基础的机器学习到深度学习；2）机器学习流程的五大关键步骤；3）不同类型的学习任务（分类、回归等）及其应用场景；4）PyTorch框架的核心概念与使用方法，包括张量运算、自动微分和计算图机制；5）神经网络的基本原理，涵盖正向传播、反向传播等核心算法。文章通过代码实例详细展示了如何使用PyTorch实现线性回归和分类任务，并对比了静态图与动态图的差异。最后，介绍了计算图在现代机器学习系

2026-03-16 19:59:10 425

原创 OpenClaw与其他智能体的区别，以及为什么能操作电脑

OpenClaw是一种AI执行引擎，与豆包、GPT等大模型形成"手脚"与"大脑"的协作关系。它通过工具调用机制将自然语言指令转化为系统命令，核心功能包括执行系统命令、管理后台进程、操作文件系统等。OpenClaw具备技能系统、记忆系统和多Agent协作能力，但需要严格的安全控制，如沙箱隔离和命令白名单。其底层原理是通过exec等工具将AI决策转化为操作系统指令，在三种执行环境（沙箱/宿主机/远程节点）中完成自动化任务。这种技术使大模型从"动口"进化

2026-03-13 17:09:57 762

原创 OpenClaw/本地部署/讲解教程

OpenClaw是一款AI助手工具，支持多种安装方式（npm/pnpm/bun）和跨平台运行（macOS/Linux/Windows）。安装需Node.js≥22环境，推荐通过openclaw onboard --install-daemon命令完成完整安装。主要功能包括：1）集成飞书等聊天工具（需配置AppID/Secret）；2）提供Web控制面板（http://127.0.0.1:18789）；3）支持多种AI模型选择（如Kimi2.5/Qwen）；4）插件扩展系统（官网/Github获取）。安装过程

2026-03-13 16:01:12 852

原创 13-从零构建生产级Agent服务

本文介绍了构建生产级Agent服务的完整方案。系统采用FastAPI框架提供API接口，基于LangGraph的ReAct架构实现智能体功能，支持短期记忆存储(PosgreSQL)、人工审查(HITL)、多厂商大模型调用(OpenAI/通义千问/Ollama)等功能。关键技术包括：Redis会话状态管理、Celery异步任务处理、rich库前端开发等。文章详细阐述了系统架构、核心业务流程，并提供了从环境搭建(Anaconda/PyCharm)、依赖安装、Docker部署(PostgreSQL/Redis)到

2026-03-12 16:10:18 385

原创 12- - AI 应用开发新范式 MCP 技术详解

MCP（模型上下文协议）是连接大模型与外部世界的标准化接口，由Anthropic发起并发展为开放协议。本文系统介绍了MCP的核心概念、架构、应用场景及编程实践。 MCP通过标准化协议实现LLM与工具/数据源的无缝集成，支持资源、工具和提示三种服务类型。相比传统API，MCP具有动态发现、双向通信等优势。文章详细解析了MCP的客户端-服务端交互流程，并提供了基于Python SDK的代码示例。实践部分包含数学运算智能问答和微博情感分析两个案例，展示了如何利用MCP的Sampling机制赋予服务端智能能力。同

2026-03-11 17:30:55 1082

原创 11-MCP应用技术开发

MCP（Model Context Protocol）是Anthropic开源的模型上下文协议，旨在简化LLM应用与外部资源的集成。该协议通过中间层（MCPServer）实现统一连接，支持JSON-RPC 2.0消息格式和多种传输模式（STDIO/SSE/StreamableHTTP）。高德地图和MySQL的MCPServer案例展示了其实际应用，包括地理服务、数据查询等功能。最新版本（2025-03-26）引入StreamableHTTP模式，提升了传输灵活性和健壮性。LangGraph框架还支持通过MC

2026-03-11 10:26:59 502

原创 10-基于LangGraph实现智能分诊系统

摘要：本项目基于LangGraph框架实现了一个智能分诊系统，通过状态图定义对话流程，包含意图分析、工具调用、文档评分和回复生成等核心节点。系统采用并行工具执行、动态路由机制和PostgreSQL持久化存储，支持检索类工具与非检索类工具的分流处理。关键技术包括：1) 多节点状态图工作流管理；2) 工具并行调用优化；3) 文档相关性评分机制；4) 数据库连接池与跨线程持久化方案；5) 多模型支持(Qwen/OpenAI等)。项目提供FastAPI接口和Gradio Web界面，实现了健康档案查询、数学计算等典

2026-03-10 19:23:09 379

原创 09-Agent应用与工作流编排框架LangGraph

LangGraph是由LangChain团队开发的开源框架，用于构建基于大型语言模型(LLM)的复杂应用。它通过图结构(graph)表示工作流，支持循环逻辑、状态管理和多主体协作等特性。核心功能包括：1) 节点和边构成的图结构；2) 自动状态管理；3) 支持循环工作流；4) 内置持久化机制。LangGraph特别适用于对话代理、多步骤任务和多代理系统等场景。本文详细介绍了如何使用LangGraph构建ReAct Agent、创建自定义工作流、实现记忆功能，以及开发Agentic RAG系统等实践案例，展示了

2026-03-09 15:55:45 425

原创 08-FunctionCalling与Agent智能体系统设计

摘要：本文系统介绍了Function Calling的概念、工作原理及实际应用。Function Calling使大模型能够调用外部函数，实现与真实世界的交互，扩展了模型的知识和行为能力。文章详细解析了OpenAI和Qwen模型的Function Calling接口使用，并通过天气查询、地图搜索、数据库操作等案例演示了实战应用。同时，探讨了Function Calling带来的质变——从孤立应答到系统协同，以及智能体（Agent）的定义与开发框架（如smol-agents）。最后，分析了智能体在RAG、跨

2026-03-07 15:20:55 385

原创 07-LangChain多任务应用开发

摘要：LangChain是一个面向大模型开发的框架，提供模型I/O封装、数据连接处理、流程编排等核心功能。其特点包括：1）统一封装多种模型接口（如OpenAI、DeepSeek等），支持结构化输出和Function Calling；2）提供Prompt模板管理、文档加载/处理工具，但数据处理能力相对基础；3）通过LCEL实现声明式流程编排，支持流式输出、异步调用等特性；4）配套LangGraph工作流和LangSmith监控工具。相比LlamaIndex更侧重模型交互层，适合需要灵活组合模型调用的场景，但在

2026-03-06 15:59:50 363

原创 06-中医临床智能诊疗系统---RAG 检索增强生成方案-----Fine tuning 微调方案

本文介绍了RAG（检索增强生成）技术在中医临床诊疗术语问答系统中的应用。首先分析了LLM的局限性，包括知识时效性、推理能力和专业领域盲区等问题。然后详细阐述了RAG系统的构建流程，包括文档处理、向量索引构建和检索生成过程。重点展示了基于LlamaIndex框架实现中医证候问答系统的实践，包括数据预处理、模型选择（BAAI/bge-base-zh和Qwen1.5-7B-Chat）、向量存储优化以及自定义中文Prompt模板等关键技术。通过分析检索底层实现，揭示了RAG如何通过检索相关文档片段来增强模型回答的准

2026-03-05 20:22:08 403

原创 05-LlamaIndex开发

本文介绍了使用LlamaIndex框架开发大语言模型应用的全流程。主要内容包括：1) 环境配置与阿里云API设置；2) LlamaIndex核心功能详解：数据加载、文本切分、索引构建、检索优化；3) 问答系统实现：单轮问答、多轮对话、流式输出；4) 底层组件：Prompt模板、LLM集成、Embedding模型；5) 完整RAG系统实现：支持Qdrant向量数据库、检索后排序等功能；6) Text2SQL技术详解与工作流实现；7) 工作流管理框架原理与应用。文章通过大量代码示例展示了如何使用LlamaInd

2026-03-05 11:28:14 529

原创 04-RAG高级技术与实践

RAG技术树涵盖RAFT方法、高效召回策略（如TOP_K优化、混合索引、查询扩展）及Qwen-Agent开发框架，支持分块检索与逐步推理。质量评估依托RAG三元组和Ragas工具，量化检索相关性、答案忠实度等指标。商业落地需聚焦工程化步骤：从文档分块、索引优化到评估闭环，结合父文档检索器或动态块调整平衡精度与效率。核心目标是通过知识图谱与RAG的协同，构建可解释、可迭代的智能系统。

2026-03-04 11:27:41 369

原创 03-RAG技术

摘要：本文系统介绍了面向开发者的ChatGPT提示工程实践指南，重点解析了吴恩达课程中的两大核心原则：编写清晰具体的指令和给模型思考时间。同时详细阐述了RAG（检索增强生成）技术原理、优势及实施流程，包括数据预处理、检索阶段和生成阶段的关键技术。文章还对比了Prompt、RAG和Fine-tuning三种开发模式的适用场景，并提供了LangChain搭建本地知识库的实践方案。最后针对RAG各阶段常见问题，提出了提升质量的具体方法，如智能文档处理、混合检索策略和动态防护栏技术等，为开发者构建高效AI应用提供了

2026-03-03 11:25:00 680

原创 Jenkins安装配置

Jenkins是一款开源的持续集成工具，支持自动化构建、测试和部署。它具有丰富的插件生态，支持Git、Maven、Docker等工具集成，可实现分布式构建和文件版本追踪。安装方式多样，包括YUM、RPM和Docker等。环境配置需要安装JDK、Git、Maven和Docker等组件，并配置相应插件。通过Jenkins可以实现代码自动拉取、编译、测试、打包和部署的完整CI/CD流程。管理后台提供可视化界面，支持插件管理和全局工具配置，是现代化DevOps流程中的重要工具。

2026-02-23 10:52:36 629

原创 02-嵌入模型和向量数据库

本文系统介绍了向量表征技术在人工智能领域的核心应用与实现方法。主要内容包括：1）向量表征概念及其在NLP、CV、推荐系统等领域的典型应用场景；2）文本向量生成原理与相似度计算方法，包含Python实现示例；3）主流嵌入模型分类与选型指南；4）向量数据库工作原理，重点对比了Chroma和Milvus等主流解决方案的特性与应用场景。文章深入浅出地阐述了如何通过向量化技术实现语义理解与相似性搜索，为构建智能应用提供了技术参考。

2026-02-14 14:46:09 671

原创 01-环境的准备

Conda是一个强大的Python包和环境管理工具，支持多平台使用。本文介绍了Conda的基本概念，包括Anaconda和Miniconda的区别，以及使用Conda管理虚拟环境的优势。详细讲解了Conda的安装步骤、常用命令（环境创建/切换/删除、包管理）、环境导入导出方法，并介绍了如何在JupyterLab、PyCharm和VSCode中集成Conda环境。此外还涉及了硬件设备与算力资源的相关内容，包括API模型调用和本地模型部署的注意事项。通过本文可以全面了解Conda的核心功能及其在开发环境中的应用

2026-02-12 19:20:42 574

空空如也

空空如也