今天,我们来聊聊大模型里那些听起来很复杂,但其实挺有意思的技术术语。别担心,我会尽量用简单的话来说,让大家都能明白。
一、SFT(监督式微调)
(一)什么是 SFT?
想象一下,我们训练一个模型,就像教一个小孩学习语言。一开始,小孩只是随便说,可能说对也可能说错,这就是“预训练”。但如果我们想让小孩更准确地回答问题,就需要用“监督式微调”(SFT),也就是给小孩一些标准答案,让他跟着学。
(二)适合用 SFT 的数据
比如,我们给模型一些“中国的首都是北京”这样的句子,或者“你是一个历史学家,请回答……”这样的对话。这些数据就像是给小孩的标准答案,帮助模型更好地回答问题。
百科(事实性数据) 陈述句:中国的首都是北京
提问回答对:医患交流数据一轮QA,多轮QA等、信息抽取类标注数据等
角色设定“你是一个政务信息化解决方案专家,请回答…”
二、COT(思维链)
(一)什么是 COT?
是一种改进的提示(Prompting)技术,旨在提升大语言模型 (LLMs)在复杂推理任务上的表现。
COT 就像是给模型一个“思考过程”。以前模型回答问题可能直接蹦出答案,现在我们希望它像人一样,先思考一下,再给出答案。比如,问“2+2 等于几?”模型会先想:“2+2 是两个数相加,结果是 4”,而不是直接说“4”。
(二)训练过程
我们通过给模型一些复杂的题目,让它学会怎么思考,怎么一步步推导出答案。
1.提示设计(Prompt Design) 。
Zero-Shot-CoT:通过在问题的结尾附加"Let’s think step by step等提示,让模型在没有示例 的情况下生成推理链。这种方法通过简单的提示词引导模型逐步思考,从而生成中间推理步 。
Few-Shot-CoT:在提示中提供少量示例,每个示例都包含问题、推理过程和答案。模型通过学 习这些示例,理解如何生成推理链"。这种方法通过示例让模型学习具体的推理步骤,从而更 好地生成推理链。
2.微调(Fine-tuning) 。
数据收集:收集一系列有标签的数据,定义成<数据集,任务类型>的形式。这些任务包括推理 任务和非推理任务" 。
数据整理:将任务转换成统一的输入和输出格式,以便模型能够更好地理解和处理"。
训练过程:采用学习率和优化器(如Adafactor)进行训练。通过在每个指定的步数在"保留任务"上进行模型评估,保存最佳的checkpoint。
三、RAG(检索增强生成)
(一)什么是 RAG?
RAG 是一种很聪明的技术,它让模型在回答问题之前,先去一个“知识库”里找找答案。比如,你问“北京的天气怎么样?”模型会先去知识库里查一下北京的天气信息,然后再回答你。
(二)工作原理
本质上也是一种Prompt增强方式,用户Prompt+Prompt检索的信息+思维链过程中检索的信息。 知识库(内容可以是结构化,也可以是非结构化,因为这些内容大 模型都能理解。)的构建一般用向量数据库(也可以直接用搜索引擎)。
这个知识库可以是数据库,也可以是搜索引擎。模型把找到的信息和你的问题结合起来,最后生成一个更准确的答案。
四、RL(强化学习)
(一)什么是 RL?
强化学习就像是训练一只小狗。如果小狗做对了事情,就给它一块肉,它就会记住下次还要做对。模型也是这样,如果它回答得好,就会得到“奖励”,回答得不好,就会被“惩罚”。
奖励有很多种:
1)价值观奖励;
2)题库奖励(题库,天然有答案);
3)判决奖励(法律判决数据,天然有判决);
4)连贯性奖励(DeepSeek设计了一套动态奖励函数,
其中逻辑连贯性是关键指标);
5)语言一致性奖励(生成语言混乱,扣分)。
(二)应用示例
比如,AlphaGo 下围棋,如果它赢了,就会得到奖励;如果输了,就会被惩罚。通过这种方式,模型会越来越聪明。
五、GRPO(群体相对策略优化)
(一)什么是 GRPO?
GRPO 是一种强化学习算法,它的核心思想是通过“组内比较”来优化模型的表现,而不是依赖一个额外的“裁判”模型。这就像是在一个班级里,老师不直接告诉每个学生他们的成绩,而是通过比较他们的表现,让表现好的学生得到奖励,表现差的学生得到改进的方向。
(二)生动的例子
假设我们有一个班级,老师给学生们出了一道数学题:“8+5 的总和是多少?”每个学生给出了不同的答案:
• 学生 A:“答案是 13。”
• 学生 B:“十三。”
• 学生 C:“是 12。”
• 学生 D:“总数是 13。”
老师不会单独评价每个学生的答案,而是比较所有答案,然后给出奖励:
• 学生 A 和学生 D 的答案完全正确,格式也很好,得到 1 分。
• 学生 B 的答案虽然正确,但格式不太规范,得到 0.9 分。
• 学生 C 的答案错误,得到 0 分。
然后,老师会根据这些奖励值来调整教学方法,帮助学生改进。这就是 GRPO 的核心思想——通过比较同一组内的多个输出,来优化模型的表现。
(三)与 PPO 的区别
PPO(近端策略优化)是另一种强化学习算法,它依赖一个“裁判”模型(价值网络)来评估每个动作的好坏。而 GRPO 不需要这个“裁判”,而是直接通过组内比较来计算奖励。这就像 PPO 是老师单独评价每个学生的答案,而 GRPO 是老师比较所有学生的答案来给出奖励。
- PPO:需要一个额外的“裁判”模型,计算复杂度高,内存占用大。
- GRPO:不需要“裁判”,直接通过组内比较来优化,计算效率更高,更适合大规模模型。
特征 | PPO (GPT-4) | GRPO (Deep Seek R1) |
---|---|---|
训练方法 | 一次比较一个回答 | 一次比较多个回答 |
自我验证 | 较弱 | 较强 |
训练速度 | 较慢 | 较快 |
计算成本 | 较高(训练两个模型:策略模型+批评模型) | 较低(只训练一个模型) |
幻觉控制 | 较少控制 | 更多控制 |
最佳用途 | 微调AI回答 | 训练自我验证的AI |
六、MoE(混合专家模型)
(一)什么是 MoE?
MoE 是一种模型架构,它把一个大模型拆分成多个“专家”,每个专家负责处理一部分任务。这就像是一个公司,有多个部门,每个部门都有自己的专长。当一个任务进来时,系统会根据任务的性质,选择合适的专家来处理。
DeepSeek采用了大规模的MoE(Mixture of Experts 混 合专家模型)架构,将模型参数划分为多个“专家”,每个 输入只激活部分专家。这种设计在保持模型大规模参数的 同时,显著降低了计算资源的消耗。
(二)生动的例子
假设我们有一个餐厅,顾客点了一杯咖啡和一份三明治。餐厅里有多个厨师,每个厨师都有自己的专长:
• 厨师 A 擅长做咖啡。
• 厨师 B 擅长做三明治。
• 厨师 C 擅长做甜点。
当顾客的订单进来时,系统会把做咖啡的任务分配给厨师 A,做三明治的任务分配给厨师 B。这样,每个厨师只需要专注于自己擅长的事情,整个餐厅的效率就会更高。
MoE 模型也是这样,它把任务分配给最擅长的“专家”,而不是让所有专家都参与处理。这样可以显著降低计算资源的消耗,同时保持模型的高性能。
(三)与传统模型的区别
传统的大模型就像是一个“全能厨师”,所有任务都由他一个人完成,效率较低。而 MoE 模型就像是一个团队,每个成员都有自己的专长,分工合作,效率更高。
• 传统模型:所有任务都由一个模型处理,计算资源消耗大。
• MoE 模型:任务分配给多个专家,每个专家只处理自己擅长的部分,计算效率更高。
七、Scaling Law(规模法则)
(一)内容
简单来说,模型越大,能力越强。就像一个大脑,神经元越多,越聪明。数据也是一样,数据越多,模型就越“见多识广”。
(二)意义
所以,我们总是希望模型更大,数据更多,这样它就能更好地回答各种问题。
八、软标签(Soft Labels)
(一)定义
软标签就像是一个“概率答案”。比如,一个模型预测“明天会下雨”,但不是绝对的,它会说“有 80%的概率会下雨”。这种概率答案就是软标签。
(二)应用
在训练模型时,软标签可以帮助模型更灵活地学习。
九、泛化(Generalization)
(一)定义
泛化能力就是模型能不能把学到的东西用到新的问题上。比如,一个学生学了 100 道题,考试的时候遇到没学过的题,也能答对,这就是泛化能力强。
(二)示例
好的模型就像一个聪明的学生,不仅能记住学过的东西,还能用学到的知识解决新问题。
学生甲:训练了100个题目,什么考试都能拿100分
学生乙:训练了100个题目,考试只能拿60分
学生丙,训练了100个题目,考试只能拿50分,训练了10000个题目,考试也能拿100分
- 甲的泛化能力好于乙,也好于丙。 乙的泛化能力好于丙
十、其他相关概念
(一)过拟合(Overfitting)
过拟合就是模型只记得训练时的内容,遇到新的问题就不会回答了。就像一个学生只背会了课本上的题,考试遇到类似的题就懵了。【死读书、书呆子】就是过拟合。
- 解决过拟合的方法?
(二)噪声(Noise)
噪声就是数据里的“脏东西”,比如错误的数据或者干扰信息。这些会影响模型的学习。
·负面影响:噪声可能会导致模型的训练不稳定、收敛速度变慢,甚至影响模型的最终性能。
·正面影响:某些类型的噪声(如Dropout)可以提高模型的泛化能力,避免过拟合"。
(三)Temperature(温度)
温度是一个参数,影响模型在生成每个词(Token)时选择下一个词的概率分布,用来控制模型回答问题时的“随机性”。温度高,回答就更随机;温度低,回答就更确定。
(四)Alignment(对齐)
对齐就是让模型的行为更符合人类的期望。比如,我们希望模型回答问题时不偏激、不冒犯人,这就是对齐。
(五)Context Window(上下文窗口)
上下文窗口就是模型在回答问题时,会考虑多长的背景信息。比如,问“这句话什么意思?”模型会看这句话的前后内容来理解。
十一、DeepSeek 不同版本
(一)DeepSeek 满血版
• 定义:
DeepSeek 满血版是指 DeepSeek 的最强版本,通常指 DeepSeek R1,这是一个拥有 6710 亿参数的超大规模语言模型。
• 特点:
• 强大的推理能力:在复杂推理、数学推理和深度逻辑推理方面表现出色。
• 高效能:采用混合专家模型(MoE)架构,每次激活部分专家,而不是全部参数,从而在保持强大性能的同时,显著降低计算资源消耗。
• 多功能扩展:支持写作、编程、翻译、问答等多种实用场景。
• 快速稳定:通过官网、云 API 和本地部署相结合的方式,提供快速稳定的服务。
(二)DeepSeek 全尺寸版
• 定义:
DeepSeek 全尺寸版是指将 DeepSeek 模型完整地集成到某个系统或设备中,而不是部分功能的接入。例如,中兴努比亚的 Z70 Ultra 手机内嵌了 DeepSeek 全尺寸模型,用户可以直接在手机上使用完整的
• 特点:
• 系统级交互:全尺寸版深度整合到系统中,用户无需在不同 AI 界面之间切换,操作更加人性化。
• 接近官方 App 的体验:在复杂推理、多模态交互和端云协同等场景中,全尺寸版的表现与官方 DeepSeek App 非常接近。
• 避免 AI 幻觉:非全尺寸模型在处理复杂问题时可能会出现“不展现深度思考过程”或 AI 幻觉,而全尺寸版则能避免这些问题。
(三)DeepSeek 蒸馏版
• 特点:
参数规模较小,通常从 1.5B 到 32B 不等。通过知识蒸馏技术,从大型模型中提取关键信息,保留核心能力的同时大幅减少模型大小。
• 性能表现:
推理能力略逊于满血版,但在资源受限的环境中表现良好,响应速度快,适合实时交互场景。不提供详细的思考过程,输出结果直接呈现。
• 适用场景:
适用于小型企业或嵌入式设备中的 AI 应用开发,如在线客服、智能助手等实时响应场景。
(四)DeepSeek 量化版(效果残差不齐)
• 最低的Q2量化,一个参数用1.58个bit表达,那么显存要求就大大降低, 很多显卡都可以胜任。
部署1.58bit的如果需要全部加载到显存上,需要2x80GB的显卡,换算成24g的4090需要挺多张,但是相较于需要一大堆H100的671b的原本模型,所用配置已经相当低了,全部加载到内存上推理可能会比较慢,因此可以通过将部分layer卸载到显存上从而加快推理速度
单卡4090的话不是很推荐,显存内存加在一起都有点放不下,只有0.17token/s;双卡4090,layer为17或者16,大概1.5token/s到2tokens/s之间,再多的话没测过,虽然这速度也不是不能用,三卡应该就能正常用了,当然,选择更大显存的A100或者8卡4090,即可全部吃下,飞快使用
[KTransformers支持DeepseekR1和V3在单个(24GB显存)/多GPU和382GB内存上的运行,速度提升可达3至28倍。]
- 对内训和通讯要求比较高,而且ktransformers的多GPU策略为pipline,无法加速模型的推理,仅用于模型的权重分配。速度还没有单卡的快!
• 特点:
- 通过量化技术进一步压缩模型大小,降低权重精度(如从 FP32 到 INT8),减少显存占用。
- 性能表现:推理速度更快,能耗低,但可能牺牲部分精度,尤其是在复杂任务中。
- 适用场景:适合在移动端或边缘设备上运行,对模型大小和运行效率有严格要求的场景。
(五)满血版和全尺寸版的区别
• 满血版:
- 更强调模型本身的性能和能力(如参数量、推理能力等)。
- 是一个“软件”概念,指模型的最强版本。
• 全尺寸版:
- 更强调模型的集成方式,即是否完整地集成到某个系统或设备中。
- 是一个“硬件+软件”概念,指设备或系统是否支持完整的 DeepSeek 功能。
(六)生动的例子
假设我们有一辆汽车,汽车的“引擎”可以类比为 DeepSeek 模型:
- 满血版:就像是一辆汽车配备了最强的引擎,拥有最大的马力和最高效的动力输出。这个引擎可以单独用于赛车,也可以用于高性能的家用汽车。
- 全尺寸版:则像是将这辆高性能汽车完整地组装到一个运输系统中,用户可以直接驾驶这辆汽车,而不需要更换引擎或调整其他部件。
(七)应用场景
• 满血版:
- 适用于需要高性能计算的场景,如复杂的数学推理、代码生成、长文本处理等。
- 可以通过云服务或本地部署的方式提供支持。
• 全尺寸版:
- 适用于需要完整 AI 功能的设备或系统,如智能手机、智能办公系统等。
- 例如,中兴努比亚的 Z70 Ultra 手机内嵌了 DeepSeek 全尺寸版,用户可以直接使用完整的 DeepSeek 功能。
(八)总结
-
DeepSeek 满血版:指模型的最强版本,拥有最高的性能和最多的参数。
-
DeepSeek 全尺寸版:指将完整的 DeepSeek 功能集成到某个系统或设备中,提供无缝的用户体验。
-
两者结合:例如在智能手机或云服务中,用户可以享受到既强大又便捷的 AI 体验。
结语
今天的内容可能有点多,但希望大家能有个大致的理解。这些术语虽然听起来复杂,但其实都是为了让模型更聪明、更高效。如果大家还有任何问题,或者对某个术语感兴趣,欢迎随时提问!有误的地方也请大家指正
谢谢大家!