【一文说清】大模型：蒸馏、微调、RAG，超级简单！通俗易懂，0基础小白也能看懂！

最新推荐文章于 2025-04-28 22:01:42 发布

deepseek大模型

最新推荐文章于 2025-04-28 22:01:42 发布

阅读量1k

点赞数 35

文章标签：人工智能服务器自然语言处理语言模型数据库大模型

本文链接：https://blog.csdn.net/kaka0722ww/article/details/147418027

版权

一、模型蒸馏：大模型教小模型“绝活”

想象一下，一个知识渊博的大学教授(大模型)和一个天真无邪的小学生(小模型)。

教授啥都会，但请他来上课很贵，教室得配超级电脑，电费也高得吓人。小学生虽然啥都不会，但养起来便宜，一台普通笔记本就能跑。

怎么办呢?我们让教授把自己的“解题技巧”浓缩一下，教给小学生，虽然不能让小学生变得和教授一样牛，但至少能学会几招，能应付日常问题。这就是模型蒸馏。

怎么教的?

1.老师示范： 给教授一个问题(比如“这是猫还是狗?”)，教授，而是给出一堆可能性(“80%是猫，15%不会直接说“这是猫”是狗，5%是老虎”)，这就是“软标签”，有点像教思路而不是答案

2.学生模仿： 小学生拿到这些可能性后，试着自己回答，然后对比教授的答案，调整自己的思路

3.结合基础知识： 小学生还有自己的课本(硬标签，比如“猫就是猫”)，会把课本知识和教授的思路结合起来，找到平衡

4.反复练习： 通过不断刷题，小学生慢慢学会了教授的思考方式,虽然没那么厉害，但已经能独当一面

举个例子

有个超大模型叫“DeepSeekR1”，参数高达671亿，像个超级教授。它的“学生”是一堆小模型，参数从几亿到几十亿不等。经过蒸馏，这些小模型学会了一些“三脚猫功夫”，能在普通电脑上跑，干活效率也不错。

优点和局限

优点： 小模型体积小、跑得快，适合手机、边缘设备这种“穷地方”
局限： 小模型天赋有限，学不到教授的全部本事，精度会打折扣

二、RAG：给模型配个“外挂小抄”

RAG(检索增强生成)不是让模型变聪明，而是给它配个“外挂”。想象一个学生考试不会做题，但旁边有个超级图书馆，每次答题前翻一下书，答案马上就精准了，RAG就是这么回事。

怎么玩的?

1.准备知识库： 把一堆资料(比如公司文档、历史文章)整理好存在一个“图书馆”里

2.先查再答： 你问模型问题时，它先去图书馆搜相关内容，然后结合自己的知识回答

3.不改大脑： 模型本身没变，只是多了个“查资料”的步骤

举个例子

有个公众号用腾讯混元大模型做自动回复。它把所有历史文章塞进知识库，有人提问时，模型先查文章，再回答，保证答案靠谱又贴合实际。

优点和局限

优点： 回答更精准，尤其是专业领域的冷门问题
局限： 需要一个靠谱的知识库，搜资料也得花点时间

三、微调：给模型“补课”

微调(Fine-tuning)就像学生发现自己数学不好，找个家教补习一下，专门提高某块短板。它不像蒸馏那样从头教，也不需要外挂，就是在大模型的基础上“精修”一下。

怎么补的?

1.找短板： 发现模型在某个领域(比如经济管理)不擅长。

2.开小灶： 拿一堆专业数据(比如经管文献)喂给模型，让它多练几遍

3.小调整： 模型稍微改改参数，变得更擅长这个领域。

举个例子

有个通用模型不太懂医疗知识，用医疗数据集微调后，它就摇身变成了“医疗专家模型”。再比如，李飞飞团队用50美元微调了个模型，性能直追大佬，其实是站在开源模型Owen2.5的基础上，用蒸馏数据“补课”出来的。

优点和局限

优点： 针对性强，效果立竿见影
局限： 只能补一块，不能全面提升，数据不好找还得花钱

四、三者对比

五、总结：各有各的招

蒸馏： 让小模型继承大模型的智慧，适合“减肥”跑得快
RAG： 给模型加个外援，适合知识密集型任务。
微调： 精修短板，适合定制化需求

解码策略可以通过推理参数(例如temperature、topp、topk)在模型推理时进行控制，从而决定模型响应的随机性和多样性。

贪婪搜索、束搜索和采样是三种常见的自回归模型生成的解码策略。在自回归生成过程中，LLM根据前一个token的条件，基于候选token的概率分布逐个输出token。

默认情况下，使用贪婪搜索来生成概率最高的下一个token。与此不同，束搜索解码会考虑多个下一个最佳token的假设，并选择在整个文本序列中具有最高综合概率的假设。

以下代码片段使用transformers库，在模型生成过程中指定束搜索路径的数量(例如num beams=5表示考虑5个不同的假设):

采样策略是控制模型响应随机性的第三种方法，通过调整这些推理参数:

1.温度(Temperature)： 降低温度会使概率分布变得更加尖锐，从而增加生成高概率词语的可能性，减少生成低概率词语的可能性。当温度=0时，相当于贪婪搜索(最不具创意);当温度=1时，会生成最具创意的输出

2.Top K采样： 这种方法筛选出K个最可能的下一个token，并在这些token之间重新分配概率。模型从这个筛选出的token集合中进行采样

3.Top P采样： 与从K个最可能的token中采样不同，top-p采样从最小的token集合中选择，该集合的累积概率超过阈值p

以下示例代码片段从累积概率大于0.95(topp=0.95)的前50个最可能的token中进行采样(top k=50):

RAG系统可以分为检索和生成两个阶段。

检索过程的目标是通过对外部知识进行切块、创建嵌入、索引和相似性搜索，找到与用户查询密切相关的知识库内容

1.切块(Chunking)： 将文档划分为较小的段落，每个段落包含一个独立的信息单元

2.创建嵌入(Createembeddings)： 嵌入模型将每个信息块压缩为向量表示。用户查询也通过相同的向量化过程转换为向量表示，这样用户查询就可以在相同的维度空间中进行比较

3.索引(Indexing)： 这一过程将这些文本块及其向量嵌入存储为键值对，从而实现高效且可扩展的搜索功能。对于超出内存容量的大型外部知识库，向量数据库提供高效的长期存储

4.相似性搜索(Similarity search)： 计算查询嵌入与文本块嵌入之间的相似性分数，用于搜索与用户查询高度相关的信息

那么，如何系统的去学习大模型LLM？

作为一名从业五年的资深大模型算法工程师，我经常会收到一些评论和私信，我是小白，学习大模型该从哪里入手呢？我自学没有方向怎么办？这个地方我不会啊。如果你也有类似的经历，一定要继续看下去！这些问题啊，也不是三言两语啊就能讲明白的。

所以我综合了大模型的所有知识点，给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢，我就曾放空大脑，以一个大模型小白的角度去重新解析它，采用基础知识和实战项目相结合的教学方式，历时3个月，终于完成了这样的课程，让你真正体会到什么是每一秒都在疯狂输出知识点。

由于篇幅有限，⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》，扫码获取~
在这里插入图片描述

👉大模型学习指南+路线汇总👈

我们这套大模型资料呢，会从基础篇、进阶篇和项目实战篇等三大方面来讲解。
在这里插入图片描述

👉①.基础篇👈

基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程，带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念，用最易懂的方式带你入门大模型。
在这里插入图片描述

👉②.进阶篇👈

接下来是进阶篇，你将掌握RAG、Agent、Langchain、大模型微调和私有化部署，学习如何构建外挂知识库并和自己的企业相结合，学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。
在这里插入图片描述

👉③.实战篇👈

实战篇会手把手带着大家练习企业级的落地项目（已脱敏），比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等，从而帮助大家更好的应对大模型时代的挑战。
在这里插入图片描述

👉④.福利篇👈

最后呢，会给大家一个小福利，课程视频中的所有素材，有搭建AI开发环境资料包，还有学习计划表，几十上百G素材、电子书和课件等等，只要你能想到的素材，我这里几乎都有。我已经全部上传到CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
在这里插入图片描述
相信我，这套大模型系统教程将会是全网最齐全最易懂的小白专用课！！