擎天LLM-CSDN博客

原创 26.Chroma 教程

Chroma是一款轻量级本地向量数据库，支持嵌入管理、查询、过滤和持久化功能。它可与大语言模型结合构建RAG问答系统。主要功能包括：安装通过pip，使用DuckDB+Parquet作为存储后端；通过Collection管理数据，支持添加文本/自定义向量；提供相似性查询和元数据过滤功能；支持按ID或条件删除数据；可查看文档数和预览数据；具备持久化存储能力；能与LangChain集成使用自定义Embedding。该数据库操作简洁，包含初始化、集合管理、数据增删改查等核心方法，适合本地部署的AI应用开发。

2025-11-19 19:30:17 841

原创 25.大模型部署vLLM推理框架

本文介绍了使用vLLM框架进行大模型本地化部署的完整流程。主要内容包括：1）环境安装与配置，推荐使用docker方式；2）两种模型部署方式（命令行参数和配置文件）；3）通过OpenAI SDK进行API测试调用；4）性能测试脚本开发，评估首token时间、QPS等关键指标；5）在腾讯Cloud Studio平台上的实战操作演示。文章以Qwen2.5-1.5B模型为例，详细说明了从环境搭建到性能测试的全过程，适用于企业私有化部署场景，帮助读者掌握单机多卡环境下的模型部署技能。

2025-11-16 16:13:12 841

原创 24.模型量化实践

摘要：本文介绍了bitsandbytes模块的量化原理及其在大模型部署中的应用。该工具通过INT8/INT4量化技术显著减少显存占用（INT8为FP32的25%，INT4为12.5%），同时利用GPU的TensorCore加速推理。实验表明，Qwen1.5-14B-Chat模型在INT8和INT4量化后仍保持流畅对话和代码生成能力，而预训练模型Qwen2.5-32B量化后不具备对话能力。使用vLLM部署时需注意量化参数设置，且仅支持单卡张量并行。量化在保持模型性能的同时有效提升了推理效率，适用于资源受限场景

2025-11-16 15:28:49 1282

原创 23.模型部署与推理优化

本文介绍了大语言模型推理优化的关键技术，主要包括：1）注意力机制优化如FlashAttention系列，通过分块计算和算子融合提升GPU计算效率；2）KVCache技术将注意力复杂度从O(N²)降至O(N)；3）PagedAttention借鉴分页机制管理显存；4）模型优化方法包括量化、蒸馏和剪枝；5）服务优化技术如连续批处理提升吞吐量。这些方法在vLLM等框架中已集成实现，可显著提升推理速度和资源利用率，其中FlashAttention V3对Hopper GPU的优化尤为突出。

2025-11-16 15:21:07 1278

原创 22.与人类对齐的背景与标准

输出不符合人类价值观：模型可能输出歧视性、暴力、违法等内容。逻辑错误或胡编乱造：模型容易自信地给出错误答案，即“幻觉”问题（hallucination）。拒绝有用问题或出现偏见：模型可能拒答合法的问题，或者带有文化偏见。仔细思考大模型为什么会输出的内容不符合人类的价值观？在大语言模型的预训练和有监督微调的过程中，主要训练目标是根据上下文内容来预测下一个词元，但是，这一过程并未充分考虑人类的价值观或偏好，可能导致大语言模型从数据中学习到不符合人类期望的生成模式。

2025-11-14 19:12:29 802

原创 21.模型微调——LLM的PEFT微调方法

PEFT(参数高效微调)方法通过仅微调少量额外参数，显著降低了大模型在下游任务中的计算和存储成本。主要包括三类方法：1)Prefix-Tuning通过在输入前添加可训练前缀向量；2)Adapter-Tuning在模型层间插入小型适配器模块；3)LoRA采用低秩分解矩阵近似参数更新。其中LoRA冻结原始权重，注入可训练的低秩矩阵，是目前效果最优的通用方法。HuggingFace的PEFT库实现了这些技术，使大模型能在消费级硬件上高效微调。这些方法大幅减少了训练参数量，同时保持了模型性能。

2025-11-12 19:21:04 1453

原创 20.模型微调——Prompt-Tuning方法

NLP任务发展经历了四个范式：传统机器学习、深度学习、预训练微调和提示学习。Prompt-Tuning作为最新范式，通过构建模板和标签映射将下游任务转化为预训练任务，显著减少数据需求。其发展历程包括离散提示(GPT3、PET)和连续提示(PromptTuning、P-tuning、PPT)两种方法。连续提示通过参数化模板向量，解决了离散提示方差大的问题。该方法尤其适合大模型场景，可在冻结主模型参数情况下实现小样本学习，但存在收敛慢、调参复杂等挑战。当前研究正朝着自动化模板构建和跨任务迁移方向深入探索。

2025-11-11 21:35:15 1352

原创 19.模型微调——全参微调qwen-72B显存估计

项目推荐配置GPU 数量≥16 张 A100 80G（或 ≥32张 A100 40G）最小总显存≥1.2 TB（模型 + 梯度 + 优化器）模型精度优化器AdamW（默认）或 8-bit Adam（节省内存）batch size128～512（依赖 grad accumulation）并行框架推荐 DeepSpeed ZeRO-3 / Megatron-LM。

2025-11-11 21:05:27 915

原创 18.模型微调——模型训练与效率估计

本文系统介绍大语言模型训练的核心技术挑战与解决方案。首先阐述3D并行训练技术（数据并行、流水线并行、张量并行）的协同应用，分析零冗余优化器（ZeRO）如何减少显存冗余。其次探讨激活重计算和混合精度训练技术，前者通过选择性重计算来降低显存消耗，后者通过16/32位混合精度提升计算效率。在模型评估方面，详细推导了参数量计算公式，并以LLaMA为例验证计算准确性。最后建立训练运算量、时间及显存占用的估算模型，提供GPU配置建议。

2025-11-11 17:02:46 1126

原创 17.模型微调——微调数据集构建

构建高质量指令数据集的方法包括：1）将传统NLP任务（如翻译、摘要等）转化为指令格式，添加任务描述；2）利用日常对话数据，但高质量标注数据稀缺且成本高；3）通过大模型半自动化合成数据（如Self-Instruct方法）。提升方法包括优化指令格式设计、扩展指令数量（但超过7.2M条后收益递减）以及重写筛选指令。研究表明，数据质量比数量更重要，垂直领域少量高质量数据也能取得良好效果。实践中可结合人工标注与大模型合成来构建多样化指令数据集。

2025-11-11 16:16:29 1212

原创 16.Dify接入外部知识库

Dify通过集成RAGFlow外部知识库API解决了原有知识库功能不足的问题。RAGFlow是一款开源RAG引擎，具备深度文档理解能力，支持PDF、Word等复杂文档格式的OCR识别和结构化处理。安装需4核CPU、16GB内存和50GB硬盘空间，通过修改配置文件完成部署。用户可在RAGFlow中创建知识库，上传文件并选择解析方式（如常规分块、问答对、简历解析等），然后通过API与Dify连接。

2025-11-09 20:58:02 1165

原创 15.RAG

RAG（检索增强生成）技术通过结合检索系统与生成模型，提升大语言模型（LLM）回答的准确性与时效性。其流程包括：1）从向量化知识库中检索相关内容；2）将检索结果作为上下文输入生成模型；3）生成最终回答。知识库构建需选择数据源（如PDF、DOCX等），设置分段模式（通用/父子模式）和索引方法（经济/高质量模式），并配置检索方式（向量/全文/混合检索）。Dify平台支持知识库创建、分段优化、召回测试及与AIAgent/工作流集成，例如通过“知识检索”节点增强LLM输出的可靠性。

2025-11-09 20:13:15 1208

原创 14.大语言模型微调语料构建

本文介绍了AI模型微调的基本步骤和工作流程实现方法。模型微调包括选择预训练模型、准备数据集、调整结构、设置参数、训练和评估部署等环节。针对数据集制作门槛高的问题，提出通过Dify工作流生成语料方案，该流程包含开始节点、文档解析、数据处理、LLM生成等阶段，最终输出符合要求的JSONL格式微调数据。测试结果显示，系统能成功生成包含system/user/assistant三角色的结构化训练数据，为普通用户提供了便捷的大模型微调语料制作工具。

2025-11-09 19:44:09 21964 6

原创 13.Dify介绍

Dify是一款开源的大语言模型应用开发平台，提供BaaS服务，让开发者快速构建生成式AI应用。平台支持多种模型接入（推理、Embedding、语音转文字）、5种应用类型（聊天助手、文本生成等）和可视化工作流编排（包含多个功能节点）。其核心功能包括知识库管理（实现RAG技术）、灵活的流程设计以及多场景应用开发。安装需WSL和Docker环境，提供直观界面简化开发流程，适合从简单对话到复杂业务场景的AI应用构建。

2025-11-08 02:36:56 920

原创 12.GPTs及Coze应用

2023年11月，OpenAI 为旗下的 ChatGPT 推出了一项名为“GPTs”的服务，允许用户无需写代码就可以根据特定需求创建“属于自己的 ChatGPT 版本”，也就是基于 ChatGPT 创建定制化的个人 AI 助手。截止到2024年1月，已经有超过300万个性化ChatGPT诞生。，注意需要科学上网，以及当前只针对plus用户开通了使用权限。学习笔记文档，通常会针对不同的知识点进行分块介绍，为了保证文档上传到知识库后可以按照不同模块进行拆分，我在每个模块标题前手动添加了###分隔符。

2025-11-06 22:55:08 934

原创 11.大模型Agent应用

本项目基于CrewAI框架开发了一个多Agent协作系统，实现情书自动创作与邮件发送功能。系统包含三个角色Agent：作家负责情感内容创作（300字以内）、编辑负责文本格式化与本地存储、寄信人负责邮件发送。通过自定义工具类实现文本保存和邮件发送功能，采用顺序流程执行任务。项目展示了AI代理在特定场景下的协作能力，从内容生成到最终邮件发送的全流程自动化。技术栈包括Python3.10/3.11、CrewAI框架以及相关第三方库，支持通过本地大模型或云端API运行。

2025-11-06 22:38:46 354

原创 10.大模型Agent介绍与应用

摘要： AIAgent（人工智能代理）是能够感知环境、自主决策和执行任务的智能实体，包括物理或虚拟形式。主要分为简单反射型、目标导向型和学习型三类。现代AIAgent以大型语言模型（LLM）为核心，通过提示词、记忆、规划和行动等模块协同工作，实现复杂任务处理（如客户退货请求）。与传统软件不同，AIAgent能解决更广泛的问题。应用场景涵盖客服、教育、医疗等领域，开发工具包括百度AgentBuilder、LangChain、AutoGen等开源框架，助力高效构建智能代理系统。

2025-11-06 20:14:51 1027

原创 09.MCP协议介绍

摘要： MCP协议（模型上下文协议）是Anthropic于2024年推出的开放标准，旨在通过标准化接口（如JSON-RPC）统一大模型与外部数据源/工具的通信，解决数据孤岛问题。其核心是客户端-服务器架构：模型作为客户端，外部工具作为服务器，均遵循MCP规范实现“即插即用”交互。MCP基于Function Calling技术，但通过更高层封装简化开发，支持本地（stdio）和远程（SSE/HTTP）通信。目前已有开源SDK及成百上千的MCP服务器生态（如GitHub集成），显著提升智能体开发效率。

2025-11-05 23:28:45 1187

原创 08.大模型Function Call的应用

OpenAI于2023年6月推出的FunctionCall功能使GPT-4/3.5-turbo能通过JSON对象调用外部函数，解决了大模型的信息实时性、数据局限性和功能扩展性问题。文章详细介绍了FunctionCall的工作原理，通过查询天气、航班信息和SQL数据库三个实践案例，展示了如何定义函数、描述参数并实现交互。案例代码包括函数调用流程、参数传递及结果处理，证明FunctionCall能有效增强大模型与外部系统的集成能力，提升AI应用的实用性和灵活性。

2025-11-05 23:18:13 1147

原创 07.docker介绍与常用命令

Docker是一种轻量级容器技术，相比传统虚拟机具有启动快、资源占用小的优势。本文系统介绍了Docker的核心概念：镜像（只读模板）、容器（运行实例）及其相互关系，通过C/S架构提供服务。重点讲解了常用命令操作，包括镜像管理、容器运行、网络配置等。特别演示了使用Dockerfile构建镜像和Docker Compose编排多容器服务的完整流程，最后通过FastAPI应用部署案例实践了开发到上线的全流程。

2025-11-05 22:22:07 613

原创 06.LangChain的介绍和入门

LangChain是由Harrison Chase于2022年10月创建的LLM应用开发框架，旨在简化大语言模型的应用开发。它提供了统一的接口连接各类大模型（如GPT、文心一言等），并包含六大核心组件：模型集成、提示管理、记忆功能、索引处理、链式调用和智能代理。框架支持Python和Node.js实现，能实现文档问答、聊天机器人等多种应用场景。通过组件组合，开发者可以快速构建复杂AI应用，如基于文档的问答系统和个人助手等，显著降低了LLM应用开发门槛。

2025-11-05 11:53:43 1087

原创 05.大模型提示工程指南

提示工程（Prompt Engineering）是与大语言模型交互的关键技术，通过优化指令设计提升模型输出质量。文章提出五大核心原则：1）提供清晰指令（详细描述、角色扮演、分隔符使用等技巧）；2）基于参考文本作答减少幻觉；3）复杂任务拆解为子任务（意图识别、长文本处理）；4）给予模型思考时间（链式推理）；5）借助外部工具（动态知识库、代码执行）。这些方法能显著提升模型在专业领域、复杂计算和实时信息处理等方面的表现，是使用大语言模型的重要技能。

2025-11-05 11:40:44 759

原创 04.LLM主流开源代表模型

本文系统梳理了当前主流开源大语言模型的发展现状与技术特点，涵盖LLaMA、ChatGLM、Qwen、零一万物、DeepSeek等八大系列。从模型架构、训练策略、性能参数到开源协议进行全面分析，重点对比了不同参数规模（7B-304B）的硬件需求与适用场景。其中，Meta的LLaMA系列通过RoPE位置编码和SwiGLU激活函数实现技术突破；清华ChatGLM采用独特的自回归填空目标；阿里Qwen实现百万token长文本处理；DeepSeek运用MoE架构优化推理效率。

2025-11-04 21:49:32 1057

原创 03.ChatGPT模型原理介绍

ChatGPT是OpenAI研发的AI聊天机器人，基于GPT-3.5模型构建。它通过监督学习和强化学习（RLHF）两个阶段训练：先用人工标注数据微调语言模型（SFT），再通过人类反馈训练奖励模型（RM）指导优化。这种"预训练+人类反馈强化学习"的方法使ChatGPT能生成更符合人类期望的响应。相比前代模型，ChatGPT在1750亿参数规模下，通过few-shot学习实现多任务处理，支持代码生成、翻译等复杂任务。

2025-11-04 12:45:24 1502

原创 02.LLM主要类别架构

本文系统梳理了大型语言模型（LLM）的三种主要架构类型。自编码模型（如BERT）采用双向Transformer编码器，擅长语言理解任务，但存在预训练-微调差异问题。自回归模型（如GPT）基于单向Transformer解码器，专长生成任务，但无法捕获双向上下文。序列到序列模型（如T5）整合编码器和解码器，通过文本转换框架统一处理各类NLP任务。当前主流趋势是采用Decoder-only架构，因其在参数量效比和训练效率上具有综合优势。

2025-11-04 00:38:06 798

原创 01.LLM的背景知识

大语言模型(LLM)是参数量超过10亿的人工智能模型，能够处理文本生成、翻译等自然语言任务。语言模型发展经历了四个阶段：基于统计的N-gram模型、神经网络语言模型、基于Transformer的预训练模型（如BERT、GPT）和当前的大语言模型（如GPT-3、ChatGPT）。大模型展现了Few-shot学习、上下文理解等新能力，但也面临算力需求大、内容偏见等问题。评估指标如BLEU分数用于衡量生成文本质量，通过比较候选文本与参考文本的n-gram匹配度计算得分。

2025-10-27 20:47:46 745

原创 Transformer精选问答

本文系统介绍了Transformer架构的核心模块及工作原理。重点剖析了Encoder和Decoder的结构差异，包括自注意力机制、前馈网络和Add & Norm层的设计原理。详细解释了self-attention和multi-head attention的计算机制及其优势，以及位置编码的特殊处理方式。同时对比了Transformer相对于RNN/LSTM和seq2seq模型的改进之处，特别是并行计算能力和长距离依赖特征提取的优势

2025-10-20 23:18:57 910

原创 BERT系列模型

BERT是由Google提出的一种基于Transformer Encoder的双向预训练语言模型。文章首先介绍了BERT的架构，包括Embedding模块、双向Transformer模块和预微调模块；其次详细说明了BERT的两个预训练任务：Masked LM（采用15%的token进行随机遮掩训练）和Next Sentence Prediction（句子关系预测）；然后分析了BERT的优缺点，其优势在于强大的特征提取能力，缺点在于模型庞大、收敛慢；最后简要介绍了BERT的改进模型AlBERT。文章系统阐述了

2025-10-20 20:01:53 887

空空如也

空空如也