自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(96)
  • 收藏
  • 关注

原创 RAG智慧问答项目

针对电力规程问答场景中通用大模型幻觉频发、大模型API响应超60秒、长尾问题覆盖不足等痛点,本文设计并实现了一套五级兜底架构的RAG问答系统。系统采用Redis缓存、BM25关键词、Milvus混合检索(稠密+稀疏)、千亿大模型API、人工座席五级逐层兜底,保证100%回答率。技术层面,通过bert-base-chinese微调实现94%准确率的意图分流,BGE-M3+Milvus保障语义与关键词双重召回,BGE-Reranker-Large精排提升精度,Qwen2.5-14B(INT8)单卡部署完成生成。

2026-05-01 13:53:33 369

原创 大模型Prompt-Tuning技术进阶 - 完整总结

大规模模型高效微调技术解析 摘要:本文系统介绍了面向超大规模模型的Prompt-Tuning和PEFT参数高效微调技术。针对10亿+参数模型,分析了Prompt-Tuning的三大范式:In-Context Learning(零样本学习)、Instruction-Tuning(指令微调)和Chain-of-Thought(思维链推理)。重点阐述了PEFT三大方法:Prefix-Tuning(前缀调优)、Adapter-Tuning(适配器调优)和LoRA(低秩适应)

2026-04-28 21:11:20 345

原创 大模型Prompt-Tuning技术详解:从入门到进阶

本文系统介绍了NLP任务的四种发展范式,重点对比了Fine-Tuning和Prompt-Tuning的核心原理与差异。Prompt-Tuning通过调整输入提示而非修改模型参数,实现了更高效的少样本学习。文章详细解析了In-Context Learning、Hard/Soft Prompt等主要方法,以及面向超大模型的Instruction-Tuning和Chain-of-Thought技术。同时介绍了PEFT参数高效微调技术,特别是LoRA和QLoRA等突破性方法,使消费级设备也能微调大模型。

2026-04-28 16:27:31 181

原创 大模型面试通关秘籍:面试官亲划的5大核心考点(附满分回答模板)

摘要:本文提炼了大模型面试中的核心知识点,整理成5张关键表格:1. Transformer原理篇(Attention机制、LayerNorm等核心问题);2. RAG技术篇(检索增强生成的实现与优化);3. Agent系统篇(智能体的架构与规划);4. 工程化部署篇(推理优化与生产部署);5. 开放式问题应对策略。重点强调面试中要用通俗语言解释技术原理,结合实践案例展示解决问题的能力,而非死记硬背概念。最后指出面试本质是专业匹配,需展现工程能力、沟通能力和技术热情。

2026-04-28 15:18:09 273

原创 大模型面试宝典

本文总结了21道高频AI面试题,涵盖模型微调、Transformer架构、BERT原理、训练技巧等核心知识点。主要内容包括:1)LoRA通过低秩矩阵实现高效微调;2)RMSNorm相比LayerNorm计算更快;3)Decoder-only架构在成本效果上更优;4)BERT采用80%-10%-10%的mask策略;5)训练显存约为参数量8倍;6)RAG通过检索增强生成质量;7)PDF提取需根据不同内容选择工具。每道题均以"维度-内容-总结"的结构呈现,帮助快速掌握核心要点。

2026-04-28 15:03:28 310

原创 Agent 完整面试指南:原理、框架、架构模式

《智能Agent技术全景解析》摘要: Agent作为自主决策的智能实体,通过感知-规划-行动闭环实现目标。核心架构包含推理、记忆、工具调用和行动执行四大模块,支持CoT/ToT/ReAct等思维模式。相比RAG和微调,Agent在多步推理和工具调用上具有优势。国内Coze平台生态最成熟,百度千帆适合企业级应用。Multi-Agent通过协作解决复杂问题,但需权衡成本与效率。介绍了六大架构模式

2026-04-28 14:51:31 339

原创 LoRA 面试完全指南:低秩分解原理 + Transformer 应用

LoRA(低秩自适应)是一种参数高效微调方法,通过在预训练模型旁注入可训练的低秩分解矩阵(B×A),大幅减少训练参数量(通常0.1%-1%)。核心优势包括:显存占用低、训练速度快、存储成本小(仅需保存MB级权重),且效果接近全量微调。其原理基于预训练权重更新具有低秩特性,通过冻结原始权重W,训练随机初始化的A矩阵和全零初始化的B矩阵(r<<d)。LoRA广泛应用于Transformer的Q/K/V/O投影层,典型配置r=4-32。变体QLoRA结合4-bit量化实现消费级显卡训练大模型。

2026-04-28 14:27:31 343

原创 RAG 完整面试指南:原理、优化、幻觉解决方案

摘要:RAG(检索增强生成)是一种通过实时检索外部知识库来增强大模型回答能力的方法,能有效解决知识过时和幻觉问题。其核心流程包括离线建库(文档加载、分块、向量化)和在线检索生成(查询改写、混合检索、结果精排)。优化重点包括:查询改写、混合检索策略、Chunk参数调整(建议256-512tokens,10-20%重叠率)、提示词工程等。相比微调和Agent,RAG具有无需训练、算力消耗低、知识可实时更新等优势,是当前缓解大模型幻觉的实用方案。

2026-04-28 13:58:29 403

原创 大模型训练框架 ➕ 推理部署框架

本文系统介绍了大模型训练和推理的主流框架。训练方面重点解析了DeepSpeed框架,包括其核心技术ZeRO优化器(分阶段切分模型状态)、3D并行(数据/模型/流水线并行)以及梯度累积方法,并提供了ChatGLM-6B微调的实战代码示例。推理方面对比了7种框架,突出vLLM的PagedAttention技术和TGI的生产级稳定性,并给出选型指南:新手用Ollama、高并发选vLLM、生产环境用TGI。文章最后总结了"训练用DeepSpeed,推理选vLLM/Ollama,生产上TGI&quot

2026-04-28 13:37:50 487

原创 LangGraph 垂直领域智能体实战:从入门到构建高效AI工作流

《基于LangGraph的智能体开发实战指南》摘要 本文系统介绍了使用LangGraph框架开发智能体的完整方法。首先讲解了智能体的核心架构(大脑、感知、行动和记忆模块),以及LangGraph的图结构计算模型优势。通过"冲咖啡"案例详细演示了流程控制、状态管理和人工介入的实现方式。重点阐述了六种智能体构建模式:提示链(分步处理)、分支(条件路由)、并行化(效率优化)、计划-执行(任务分解)、生成-评估(迭代优化)和智能体(自主决策)。

2026-04-26 22:57:43 428

原创 大模型KV缓存机制:从根本上理解你命中缓存了吗?

摘要:KV缓存机制基于序列前缀匹配而非问答对缓存,每轮对话新增成本来自上一轮回答和本轮问题。优化原则是固定内容前置、动态内容后置,可显著降低多轮对话成本。关键认知包括:缓存按token级前缀匹配,命中率依赖输入序列一致性;上一轮回答不会作为前缀被命中;动态内容混入前缀会导致缓存失效。工程实践中可通过调整输入结构、预热缓存提升命中率,验证方式为查看API返回的缓存命中token数。该机制将多轮对话成本从O(n²)降至O(n),节省80%以上计算量。

2026-04-25 20:03:05 817

原创 生产级RAG Agent系统的标准架构

本文介绍了一个生产级旅行助手系统的核心架构实现,主要包含以下特性: 采用两阶段LLM处理流程(槽位提取+响应生成) 实现智能追问机制(基于missing_slots标记) 构建多层上下文管理系统(内存/Redis/MySQL) 集成AgentServer+MCP数据库查询功能 系统包含8个核心类,分为数据类(IntentResult、ConversationContext等)和业务类(ContextManager、IntentRecognizer等),通过TravelAssistant主控制器协调工作流程。

2026-04-24 14:30:43 602

原创 基于MCP与A2A协议的智能旅行助手系统(MCP➕A2A➕mysql➕LLM)

本文介绍了一个基于MCP和A2A协议的智能旅行助手系统。该系统采用分层架构设计,包含数据采集层、MCP工具层和A2A代理层。核心功能包括天气查询、火车票/机票/演唱会票务查询等,通过自然语言交互实现。关键技术包括:1)使用MCP协议封装数据库查询工具;2)采用A2A协议实现多Agent协作;3)利用LLM进行意图识别和SQL生成;4)Streamlit构建用户界面。系统具有模块化、可扩展的特点,通过标准化的协议设计实现了工具与Agent的解耦,为智能助手类应用开发提供了参考架构。

2026-04-22 21:15:02 759

原创 从零开始掌握A2A协议:构建多智能体协作系统的完整指南

A2A协议是Google在2025年发布的智能体间通信协作标准,旨在解决单个AI Agent处理复杂任务的局限性。本文系统介绍了A2A协议的核心概念,包括AgentSkill(能力单元)、AgentCard(电子名片)、Task(任务管理)和TaskState(状态机),并提供了从零构建A2A Server和Client的实战指南。重点讲解了三种协作模式:串行执行、智能路由和A2A+MCP组合应用,最后通过智能旅行助手案例展示了如何实现任务分解与并行执行。

2026-04-21 23:58:00 837

原创 MCP协议深度解析:AI应用的Type-C时代已来

摘要:MCP(Model Context Protocol)是Anthropic提出的AI工具集成协议,旨在解决传统工具调用中描述不一致、重复开发等问题。该协议采用标准化设计,支持stdio、SSE和Streamable-HTTP三种传输方式,实现工具"一次编写,到处调用"。文章详细介绍了MCP的核心架构、三种传输方式的实现方法,以及如何与LangChain框架集成。MCP通过工具自描述机制、统一调用规范,显著提升了AI应用开发效率,特别适用于构建插件化、可扩展的智能代理系统。

2026-04-21 13:13:02 584

原创 Dify平台入门指南:开源LLM应用开发平台深度解析

Dify是一款开源LLM应用开发平台,采用BaaS模式为开发者提供一体化解决方案。平台支持多模型接入、RAG引擎和灵活的工作流编排,适合企业级AI应用开发。相比Coze更偏向开发者需求,Dify强调私有化部署和复杂应用构建能力。安装部署简单,支持Docker容器化运行。平台提供从模型微调、知识库构建到工作流设计的全流程工具,并可通过RAGFlow扩展复杂文档处理能力。Dify的核心优势在于开源可控、模型中立和完整的LLMOps支持,特别适合对数据安全和定制化要求高的生产环境。

2026-04-20 13:53:07 465

原创 Coze平台入门指南:从零搭建你的第一个AI智能体

Coze(扣子)是字节跳动推出的AI智能体开发平台,定位为“字节版GPTs”,核心价值是零代码、可视化搭建AI智能体。平台提供插件库(搜索、天气、企查查等)、工作流(拖拽式编排)、知识库(RAG检索)、数据库(结构化存储)等核心功能,支持多模态(文生图、语音合成、视频生成)和Multi-Agent多智能体协作。用户通过配置提示词、添加工作流即可创建智能体,一键发布到飞书、微信、抖音等渠道。同时提供Python SDK和API,支持将智能体集成到自有应用。简单说:Coze让不会编程的人也能让AI“动手做事”

2026-04-20 13:45:05 486

原创 大模型Agent:让AI真正“动手”做事的智能体

《智能体Agent:从思考到行动的AI进化》 Agent是新一代人工智能助手,它突破传统聊天机器人的局限,具备自主规划、调用工具和执行任务的能力。Agent的核心架构由大模型大脑、记忆系统和工具库组成,能够将复杂任务拆解为可执行步骤,并通过调用计算器、搜索引擎等外部工具完成任务。其工作流程包含任务规划、工具选择、行动执行和结果反思等环节,支持多Agent间的标准化协作。随着MCP工具协议和A2A交互协议的发展,Agent正从实验阶段迈向工业化应用,代表了大模型技术落地的未来方向。

2026-04-20 13:26:29 326

原创 RAG 项目完整学习笔记与总结

本文介绍了一个生产级多层RAG问答系统的设计实现。系统采用三级检索降级机制(Redis缓存→BM25关键词检索→Milvus向量检索),支持多轮对话和流式输出。核心创新包括:父子文档切分策略(子块精准检索+父块完整上下文)、混合检索(稠密向量+稀疏向量)、两阶段排序(加权初筛+精排)、BERT分类器过滤通用问题、LLM路由选择检索策略。系统采用模块化设计,包含文档加载、文本切分、向量存储、检索策略等独立组件,支持PDF/Word/PPT/图片等多种格式,通过自动历史清理和两级缓存优化性能。

2026-04-16 21:20:39 691

原创 企业级模块化RAG项目(mysql➕redis➕milvus➕模型微调➕bm25➕fastapi➕ollama➕Prompt➕多策略选择)

本文介绍了一个基于多层RAG(检索增强生成)架构的问答系统项目。该系统采用模块化设计,包含基础模块(配置管理、日志系统)、数据层(MySQL数据库、Redis缓存)、检索模块(BM25和混合检索)以及RAG核心模块(文档处理、向量存储、策略选择等)。 核心功能包括: 支持多种文档格式(PDF/Word/PPT等)的加载和OCR处理 中文文本递归切分和语义切分 混合检索策略(直接检索/HyDE/子查询/回溯问题) 流式响应和对话历史管理 FastAPI Web服务和WebSocket

2026-04-16 21:12:48 325

原创 从零到一构建企业级 RAG 问答系统:一个完整的模块化实践指南

本文介绍了一个企业级模块化RAG问答系统的完整实现方案。该系统针对在线教育平台需求,支持多格式文档处理、智能检索和多轮对话。核心创新包括:1)采用父子文档策略实现精准检索与完整上下文的平衡;2)混合检索机制结合稠密/稀疏向量;3)LLM路由智能选择检索策略;4)流式输出提升用户体验。系统架构采用模块化设计,包含文档加载、文本切分、向量存储、查询分类等核心模块,支持三级检索降级机制。关键技术选型包括Milvus、BGE-M3、BERT等,实现了毫秒级响应和90%以上的分类准确率。

2026-04-16 20:28:11 722

原创 检索增强生成RAG项目tools_04:flask➕fastapi➕高并发

本文深入探讨了RAG系统中Web服务的并发性能优化,对比了Flask(同步)和FastAPI(异步)两种框架。重点分析了三种并发模型:多进程适合CPU密集型任务,多线程适合IO密集型任务,协程则能实现超高并发IO处理。通过实验验证了FastAPI采用单线程事件循环+协程的架构优势,在IO密集型场景下可轻松支持上万并发请求,而传统多线程方案则会面临内存爆炸问题。文章还提供了RAG系统的框架选型建议、性能优化技巧和常见陷阱,强调异步非阻塞编程对提升系统吞吐量的重要性。

2026-04-13 16:44:00 499

原创 检索增强生成RAG项目tools_03:mysql➕redis➕milvus

本文介绍了RAG系统中三种关键数据库的应用:MySQL存储结构化业务数据(文档元数据、用户信息等),Redis作为高速缓存(热点查询、会话管理等),Milvus负责向量存储与相似性检索。三者协同工作,共同支撑RAG系统的数据架构。文章详细说明了各数据库的基础操作、优化技巧及在RAG中的典型应用场景,如MySQL的批量插入优化、Redis的缓存策略设计、Milvus的索引选择和分区管理等,并提供了完整的RAG数据流实现示例。最后强调三种数据库各司其职,合理搭配使用是构建高效RAG系统的关键。

2026-04-13 15:03:20 812

原创 检索增强生成RAG项目tools_02:ollama➕logging➕bm25

本文介绍了RAG系统中的三个核心工具:Ollama本地大模型部署、Logging日志系统和BM25检索算法。Ollama部分详细讲解了四种调用模式(基础聊天、流式输出、远程调用和原始HTTP请求)及其适用场景;Logging系统重点说明了日志级别、格式设置和文件输出等配置方法;BM25部分则分析了其相比TF-IDF的优势,并提供了中文分词实现代码。文章最后展示了如何将这些工具整合到一个简单的RAG系统中,实现从问题检索到答案生成的完整流程。通过这三个工具的协同工作,可以构建一个高效可靠的RAG系统基础框架。

2026-04-13 13:37:07 582

原创 检索增强生成RAG项目tools_01:Docker 极简实战

工欲善其事,必先利其器。对于大模型开发工程师而言,Docker 并非需要深究的运维工具,而是值得掌握的效率杠杆。本文总结了 8 个命令覆盖 95% 日常场景的核心实践:docker compose up -d 一键拉起 Milvus、Redis、MySQL 整套环境,logs 与 exec 快速排错,system prune 定期清理。同时记录了国内网络下配置代理、开启 (●'◡'●) 局域网连接等实战踩坑经验。

2026-04-12 20:28:37 636

原创 RAG前身:基于mysql➕redis➕bm25的传统QA问答系统

本文详细介绍了基于传统检索技术的智能问答系统构建过程。系统采用分层架构设计,包含配置管理、日志记录、MySQL数据存储、Redis缓存和BM25检索等核心模块。通过jieba分词处理中文查询,利用BM25算法计算问题相似度,并结合Softmax归一化进行阈值判断。系统实现了问答数据的持久化存储、高效检索和结果缓存功能,具有良好的安全性和可扩展性。文章还分析了各模块的设计思路、代码实现细节,并提出了优化建议,如增加内存存储、改进检索效率等。该系统为中小规模问答场景提供了高性价比的解决方案。

2026-04-10 23:14:52 198 2

原创 企业级 Python 项目实战排坑全记录

本文总结了Python企业级项目开发中的核心实践要点,主要包括:1)包管理规范(init.py的必要性);2)导入机制(相对与绝对导入的使用场景);3)运行方式(-m参数的重要性);4)环境一致性(PyCharm与命令行的差异处理);5)路径管理(动态构建路径的最佳实践)。文章提供了从项目结构、运行调试到生产部署的全流程解决方案,并附有详细的错误排查checklist和实用调试技巧,帮助开发者快速掌握企业级Python项目的标准化开发流程。

2026-04-09 13:58:49 499

原创 Python生产级日志封装完整解析_细节决定一切

本文详细介绍了Python生产环境日志系统的实现方案,重点讲解了日志轮转、异常记录和多模块管理等核心功能。文章从基础导入模块开始,逐步解析了日志器的创建、处理器配置、格式设置等关键步骤,并提供了避免重复添加Handler的防护机制。针对生产环境需求,特别强调了日志目录自动创建、UTF-8编码支持、多进程安全等实践要点。通过多个实用示例展示了不同场景下的日志记录方式,包括异常堆栈捕获、Web框架集成等。最后给出了可直接用于生产环境的完整模板代码,涵盖日志级别控制、轮转策略和环境变量配置等功能。

2026-04-08 16:08:14 535

原创 LangChain 1.x RAG完全指南:从传统检索到Agentic RAG,一篇搞定!

本文系统讲解基于LangChain 1.x的RAG开发技术。从传统信息检索(数据库、全文检索、个性化推荐)的演进与局限出发,深入剖析RAG“数据入库+用户检索”双流原理。通过完整项目实战,展示文档加载、文本切块、向量化、向量库存储、检索生成等核心组件的生产级实现。最后进阶到Agentic RAG,演示如何让大模型自主调用工具(检索、发邮件)完成复杂任务。全文涵盖理论、代码与最佳实践,帮助开发者从零构建智能、可控的RAG应用。

2026-04-07 23:00:18 834

原创 LangChain 1.x 入门指南:从智能体到实战案例

LangChain1.x大模型应用开发实战指南 摘要: 本文系统介绍了LangChain1.x框架的核心功能与开发实践。作为当前最流行的大模型应用开发框架,LangChain1.x通过智能体架构、统一API和LangGraph底层支持,显著降低了开发门槛。文章详细解析了智能体的核心组件(大模型、规划能力、工具调用等),对比了主流智能体框架特点,并重点演示了LangChain1.x的四大改进:底层架构升级、API整合、中间件支持和DeepAgent库。通过案例解析,深入浅出展示langchain框架业务流程.

2026-04-06 21:47:44 986

原创 多模态RAG实战:从表格到音视频的全链路落地指南

本文针对多模态RAG系统落地难题,提出一套结构化处理方案:数字表格建议转SQL查询,文本表格转为问答对;半结构化文档需实体抽取配合元数据检索;图片根据数量选择OCR或多模态嵌入;音频需分类处理(ASR转文字/元数据检索/分类标签);视频采用多路召回策略(关键帧/ASR/OCR/元数据)。核心观点是:模型效果取决于数据预处理质量,需针对不同模态采取差异化处理策略

2026-04-06 14:25:03 708

原创 从“踩坑”到“可控”:大模型 Prompt 工程实战总结与进阶方法论

《金融领域Prompt精准设计指南》摘要 本文基于真实金融项目实践,总结出提升Prompt稳定性的核心方法论。针对文本分类、实体抽取和语义匹配三大任务,提出四大设计支柱:边界明确、示例驱动、约束完整和可解析性。通过案例展示了从初始错误到稳定输出的五步演进过程,强调Few-shot示例、格式控制和批量处理的重要性。关键技巧包括:用符号包裹输出、禁止多余字符、处理缺失值,以及通过检查清单确保输入输出边界清晰。

2026-04-06 11:23:45 645

原创 从基础RAG到智能体RAG:大模型信息检索的进化之路

RAG技术演进全貌:从基础到智能体的发展路径 摘要: RAG(检索增强生成)技术解决了大模型的时效性、幻觉等问题。其演进经历了五个阶段:基础RAG实现检索-生成流程;高级RAG通过检索前中后优化提升效果;模块化RAG引入编排层增加灵活性;基于知识图谱的RAG实现全局理解;智能体RAG形成"搜索-阅读-推理"闭环。技术选型需考虑场景复杂度:简单问答用基础RAG,专业领域用高级RAG,研究报告需智能体RAG。未来趋势包括与Agent深度融合、成本优化等。

2026-04-05 22:28:25 641

原创 Prompt 工程实战总结:文本分类、信息抽取、语义匹配

本文基于Ollama+Qwen2:0.5b本地模型,实现了三个NLP任务的Prompt工程实践。通过SystemPrompt明确模型角色、Few-shot示例提供标准答案、后处理容错机制,成功完成了文本分类、信息抽取和语义匹配任务。实验表明:1)Few-shot比长篇指令更有效;2)限制输出格式可减少模型"废话";3)正则提取+标点替换+try-catch的后处理能显著提升稳定性。虽然0.5B小模型能运行,但1.5B/7B效果更稳定。

2026-04-04 20:04:04 1601

原创 主流大模型介绍(GPT、Llama、ChatGLM、Qwen、deepseek)

GPT系列模型演进历程:从GPT-1的单向生成到ChatGPT的人类价值对齐。OpenAI通过四年技术迭代,最终在GPT-3基础上引入RLHF(人类反馈强化学习),使ChatGPT具备更符合人类预期的对话能力。核心技术包括:Transformer架构、SparseAttention、Few-shot学习等。主流开源大模型方面,Meta的LLaMA、阿里的Qwen、清华的ChatGLM和深度求索的DeepSeek各具特色,其中DeepSeek采用创新的MoE(混合专家)架构和MLA注意力机制

2026-04-04 11:58:32 1346

原创 从“计数”到“对话”:一文读懂语言模型与大语言模型 (LLM)

本文系统梳理了语言模型的发展历程与评估方法。语言模型从早期的N-gram统计模型,到神经网络模型,再到基于Transformer的预训练模型(BERT、GPT、T5),最终发展为千亿参数的大语言模型(LLM)。评估指标包括困惑度(PPL)、BLEU、ROUGE等。当前主流LLM多采用Decoder-Only架构(如GPT),因其训练高效、推理优化且表达能力突出。三大架构中,BERT擅长理解,GPT擅长生成,T5实现任务统一,而最终工程实践选择了"简单有效"的Decoder-Only路线。

2026-04-03 12:07:16 505

原创 一篇文章搞懂模型压缩、量化、蒸馏、剪枝

模型压缩技术综述:让大模型"瘦身"运行 本文系统介绍了三种主流模型压缩技术:量化、知识蒸馏和剪枝。量化通过降低数值精度(如FP32转INT8),在BERT模型上实现了62.8%的体积缩减和82.4%的速度提升;知识蒸馏采用"教师-学生"模式,将BERT的知识迁移到BiLSTM,使学生模型体积缩减至26.7%而精度仅下降2.39%;剪枝则通过删除冗余权重,以约2%的精度损失换取模型稀疏化。三种技术各有优势:量化适合CPU推理加速,蒸馏适用于小模型部署,剪枝为后续压奠基.

2026-04-02 15:58:44 888

原创 基于Deepseek大模型API完成文本分类预测功能

本文介绍了两种调用DeepSeek大语言模型API的方式:1) 通过LangChain的ChatOpenAI封装实现,支持JSON格式返回和重试机制;2) 直接使用OpenAI客户端调用。文章重点展示了新闻分类任务的实现方案,包括提示词工程、模型预测封装和评估流程。通过构建包含10个新闻类别的分类系统,实现了从文本预处理、模型调用到性能评估的完整流程,评估指标包含准确率、精确率和F1分数。该方案采用系统化的配置管理和模块化设计,便于扩展和维护。

2026-03-31 23:37:07 90

原创 基于huggingface库Trainer实现Bert文本分类实战

摘要:本文介绍了一个基于HuggingFace Transformers库的BERT文本分类系统实现方案。系统采用Trainer API简化训练流程,自动处理训练循环、分布式训练等功能。核心组件包括:1)配置模块(Config)集中管理模型参数和路径;2)数据处理模块(utils)实现数据加载和预处理;3)自定义BERT分类模型(BertClassifier)继承PreTrainedModel;4)训练流程使用TrainingArguments和Trainer;5)提供Flask API接口等

2026-03-31 22:28:54 545

原创 基于Bert的模型迁移文本分类项目

摘要:本文介绍了一个完整的BERT文本分类系统,包含数据加载、模型训练、验证评估、模型保存、API部署和前端展示等功能模块。系统采用模块化设计,支持多卡训练加速(accelerate),每100个batch验证一次并保存最优模型。关键技术包括:1)基于BERT模型+输出头的全参微调结构;2)封装数据加载、预处理和dataloader构建;3)实现训练评估流程,包括前向传播、损失计算、反向传播等;4)提供Flask后端API和Streamlit前端展示。

2026-03-30 23:49:53 437

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除