【大模型术语破冰之旅:从新手到懂行】面向销售内勤等文科背景人员的大模型术语讲解

今天,我们来聊聊大模型里那些听起来很复杂,但其实挺有意思的技术术语。别担心,我会尽量用简单的话来说,让大家都能明白。


一、SFT(监督式微调)

(一)什么是 SFT?

想象一下,我们训练一个模型,就像教一个小孩学习语言。一开始,小孩只是随便说,可能说对也可能说错,这就是“预训练”。但如果我们想让小孩更准确地回答问题,就需要用“监督式微调”(SFT),也就是给小孩一些标准答案,让他跟着学。

(二)适合用 SFT 的数据

比如,我们给模型一些“中国的首都是北京”这样的句子,或者“你是一个历史学家,请回答……”这样的对话。这些数据就像是给小孩的标准答案,帮助模型更好地回答问题。

百科(事实性数据) 陈述句:中国的首都是北京
提问回答对:医患交流数据一轮QA,多轮QA等、信息抽取类标注数据等
角色设定“你是一个政务信息化解决方案专家,请回答…”

二、COT(思维链)

(一)什么是 COT?

是一种改进的提示(Prompting)技术,旨在提升大语言模型 (LLMs)在复杂推理任务上的表现。
COT 就像是给模型一个“思考过程”。以前模型回答问题可能直接蹦出答案,现在我们希望它像人一样,先思考一下,再给出答案。比如,问“2+2 等于几?”模型会先想:“2+2 是两个数相加,结果是 4”,而不是直接说“4”。

(二)训练过程

我们通过给模型一些复杂的题目,让它学会怎么思考,怎么一步步推导出答案。

1.提示设计(Prompt Design) 。

Zero-Shot-CoT:通过在问题的结尾附加"Let’s think step by step等提示,让模型在没有示例 的情况下生成推理链。这种方法通过简单的提示词引导模型逐步思考,从而生成中间推理步 。

Few-Shot-CoT:在提示中提供少量示例,每个示例都包含问题、推理过程和答案。模型通过学 习这些示例,理解如何生成推理链"。这种方法通过示例让模型学习具体的推理步骤,从而更 好地生成推理链。

2.微调(Fine-tuning) 。

数据收集:收集一系列有标签的数据,定义成<数据集,任务类型>的形式。这些任务包括推理 任务和非推理任务" 。
数据整理:将任务转换成统一的输入和输出格式,以便模型能够更好地理解和处理"。
训练过程:采用学习率和优化器(如Adafactor)进行训练。通过在每个指定的步数在"保留任务"上进行模型评估,保存最佳的checkpoint。


三、RAG(检索增强生成)

(一)什么是 RAG?

RAG 是一种很聪明的技术,它让模型在回答问题之前,先去一个“知识库”里找找答案。比如,你问“北京的天气怎么样?”模型会先去知识库里查一下北京的天气信息,然后再回答你。

(二)工作原理

本质上也是一种Prompt增强方式,用户Prompt+Prompt检索的信息+思维链过程中检索的信息。 知识库(内容可以是结构化,也可以是非结构化,因为这些内容大 模型都能理解。)的构建一般用向量数据库(也可以直接用搜索引擎)。
这个知识库可以是数据库,也可以是搜索引擎。模型把找到的信息和你的问题结合起来,最后生成一个更准确的答案。


四、RL(强化学习)

(一)什么是 RL?

强化学习就像是训练一只小狗。如果小狗做对了事情,就给它一块肉,它就会记住下次还要做对。模型也是这样,如果它回答得好,就会得到“奖励”,回答得不好,就会被“惩罚”。
奖励有很多种:

1)价值观奖励;
2)题库奖励(题库,天然有答案);
3)判决奖励(法律判决数据,天然有判决);
4)连贯性奖励(DeepSeek设计了一套动态奖励函数,
其中逻辑连贯性是关键指标);
5)语言一致性奖励(生成语言混乱,扣分)。

(二)应用示例

比如,AlphaGo 下围棋,如果它赢了,就会得到奖励;如果输了,就会被惩罚。通过这种方式,模型会越来越聪明。


五、GRPO(群体相对策略优化)

(一)什么是 GRPO?

GRPO 是一种强化学习算法,它的核心思想是通过“组内比较”来优化模型的表现,而不是依赖一个额外的“裁判”模型。这就像是在一个班级里,老师不直接告诉每个学生他们的成绩,而是通过比较他们的表现,让表现好的学生得到奖励,表现差的学生得到改进的方向。

(二)生动的例子

假设我们有一个班级,老师给学生们出了一道数学题:“8+5 的总和是多少?”每个学生给出了不同的答案:

• 学生 A:“答案是 13。”
• 学生 B:“十三。”
• 学生 C:“是 12。”
• 学生 D:“总数是 13。”

老师不会单独评价每个学生的答案,而是比较所有答案,然后给出奖励:

• 学生 A 和学生 D 的答案完全正确,格式也很好,得到 1 分。
• 学生 B 的答案虽然正确,但格式不太规范,得到 0.9 分。
• 学生 C 的答案错误,得到 0 分。

然后,老师会根据这些奖励值来调整教学方法,帮助学生改进。这就是 GRPO 的核心思想——通过比较同一组内的多个输出,来优化模型的表现。

(三)与 PPO 的区别

PPO(近端策略优化)是另一种强化学习算法,它依赖一个“裁判”模型(价值网络)来评估每个动作的好坏。而 GRPO 不需要这个“裁判”,而是直接通过组内比较来计算奖励。这就像 PPO 是老师单独评价每个学生的答案,而 GRPO 是老师比较所有学生的答案来给出奖励。

  • PPO:需要一个额外的“裁判”模型,计算复杂度高,内存占用大。
  • GRPO:不需要“裁判”,直接通过组内比较来优化,计算效率更高,更适合大规模模型。
特征PPO (GPT-4)GRPO (Deep Seek R1)
训练方法一次比较一个回答一次比较多个回答
自我验证较弱较强
训练速度较慢较快
计算成本较高(训练两个模型:策略模型+批评模型)较低(只训练一个模型)
幻觉控制较少控制更多控制
最佳用途微调AI回答训练自我验证的AI

六、MoE(混合专家模型)

(一)什么是 MoE?

MoE 是一种模型架构,它把一个大模型拆分成多个“专家”,每个专家负责处理一部分任务。这就像是一个公司,有多个部门,每个部门都有自己的专长。当一个任务进来时,系统会根据任务的性质,选择合适的专家来处理。

DeepSeek采用了大规模的MoE(Mixture of Experts 混 合专家模型)架构,将模型参数划分为多个“专家”,每个 输入只激活部分专家。这种设计在保持模型大规模参数的 同时,显著降低了计算资源的消耗。在这里插入图片描述

(二)生动的例子

假设我们有一个餐厅,顾客点了一杯咖啡和一份三明治。餐厅里有多个厨师,每个厨师都有自己的专长:

• 厨师 A 擅长做咖啡。
• 厨师 B 擅长做三明治。
• 厨师 C 擅长做甜点。

当顾客的订单进来时,系统会把做咖啡的任务分配给厨师 A,做三明治的任务分配给厨师 B。这样,每个厨师只需要专注于自己擅长的事情,整个餐厅的效率就会更高。

MoE 模型也是这样,它把任务分配给最擅长的“专家”,而不是让所有专家都参与处理。这样可以显著降低计算资源的消耗,同时保持模型的高性能。

(三)与传统模型的区别

传统的大模型就像是一个“全能厨师”,所有任务都由他一个人完成,效率较低。而 MoE 模型就像是一个团队,每个成员都有自己的专长,分工合作,效率更高。

• 传统模型:所有任务都由一个模型处理,计算资源消耗大。
• MoE 模型:任务分配给多个专家,每个专家只处理自己擅长的部分,计算效率更高。


七、Scaling Law(规模法则)

(一)内容

简单来说,模型越大,能力越强。就像一个大脑,神经元越多,越聪明。数据也是一样,数据越多,模型就越“见多识广”。

(二)意义

所以,我们总是希望模型更大,数据更多,这样它就能更好地回答各种问题。


八、软标签(Soft Labels)

(一)定义

软标签就像是一个“概率答案”。比如,一个模型预测“明天会下雨”,但不是绝对的,它会说“有 80%的概率会下雨”。这种概率答案就是软标签。

(二)应用

在训练模型时,软标签可以帮助模型更灵活地学习。


九、泛化(Generalization)

(一)定义

泛化能力就是模型能不能把学到的东西用到新的问题上。比如,一个学生学了 100 道题,考试的时候遇到没学过的题,也能答对,这就是泛化能力强。

(二)示例

好的模型就像一个聪明的学生,不仅能记住学过的东西,还能用学到的知识解决新问题。

学生甲:训练了100个题目,什么考试都能拿100分
学生乙:训练了100个题目,考试只能拿60分
学生丙,训练了100个题目,考试只能拿50分,训练了10000个题目,考试也能拿100分

  • 甲的泛化能力好于乙,也好于丙。 乙的泛化能力好于丙

十、其他相关概念

(一)过拟合(Overfitting)

过拟合就是模型只记得训练时的内容,遇到新的问题就不会回答了。就像一个学生只背会了课本上的题,考试遇到类似的题就懵了。【死读书、书呆子】就是过拟合。

  • 解决过拟合的方法?

(二)噪声(Noise)

噪声就是数据里的“脏东西”,比如错误的数据或者干扰信息。这些会影响模型的学习。

·负面影响:噪声可能会导致模型的训练不稳定、收敛速度变慢,甚至影响模型的最终性能。
·正面影响:某些类型的噪声(如Dropout)可以提高模型的泛化能力,避免过拟合"。

(三)Temperature(温度)

温度是一个参数,影响模型在生成每个词(Token)时选择下一个词的概率分布,用来控制模型回答问题时的“随机性”。温度高,回答就更随机;温度低,回答就更确定。

(四)Alignment(对齐)

对齐就是让模型的行为更符合人类的期望。比如,我们希望模型回答问题时不偏激、不冒犯人,这就是对齐。

(五)Context Window(上下文窗口)

上下文窗口就是模型在回答问题时,会考虑多长的背景信息。比如,问“这句话什么意思?”模型会看这句话的前后内容来理解。


十一、DeepSeek 不同版本

在这里插入图片描述

(一)DeepSeek 满血版

• 定义:

DeepSeek 满血版是指 DeepSeek 的最强版本,通常指 DeepSeek R1,这是一个拥有 6710 亿参数的超大规模语言模型。

• 特点:

• 强大的推理能力:在复杂推理、数学推理和深度逻辑推理方面表现出色。
• 高效能:采用混合专家模型(MoE)架构,每次激活部分专家,而不是全部参数,从而在保持强大性能的同时,显著降低计算资源消耗。
• 多功能扩展:支持写作、编程、翻译、问答等多种实用场景。
• 快速稳定:通过官网、云 API 和本地部署相结合的方式,提供快速稳定的服务。

(二)DeepSeek 全尺寸版

• 定义:

DeepSeek 全尺寸版是指将 DeepSeek 模型完整地集成到某个系统或设备中,而不是部分功能的接入。例如,中兴努比亚的 Z70 Ultra 手机内嵌了 DeepSeek 全尺寸模型,用户可以直接在手机上使用完整的

• 特点:

• 系统级交互:全尺寸版深度整合到系统中,用户无需在不同 AI 界面之间切换,操作更加人性化。
• 接近官方 App 的体验:在复杂推理、多模态交互和端云协同等场景中,全尺寸版的表现与官方 DeepSeek App 非常接近。
• 避免 AI 幻觉:非全尺寸模型在处理复杂问题时可能会出现“不展现深度思考过程”或 AI 幻觉,而全尺寸版则能避免这些问题。

(三)DeepSeek 蒸馏版

• 特点:

参数规模较小,通常从 1.5B 到 32B 不等。通过知识蒸馏技术,从大型模型中提取关键信息,保留核心能力的同时大幅减少模型大小。

• 性能表现:

推理能力略逊于满血版,但在资源受限的环境中表现良好,响应速度快,适合实时交互场景。不提供详细的思考过程,输出结果直接呈现。

• 适用场景:

适用于小型企业或嵌入式设备中的 AI 应用开发,如在线客服、智能助手等实时响应场景。

(四)DeepSeek 量化版(效果残差不齐)

• 最低的Q2量化,一个参数用1.58个bit表达,那么显存要求就大大降低, 很多显卡都可以胜任。

部署1.58bit的如果需要全部加载到显存上,需要2x80GB的显卡,换算成24g的4090需要挺多张,但是相较于需要一大堆H100的671b的原本模型,所用配置已经相当低了,全部加载到内存上推理可能会比较慢,因此可以通过将部分layer卸载到显存上从而加快推理速度

单卡4090的话不是很推荐,显存内存加在一起都有点放不下,只有0.17token/s;双卡4090,layer为17或者16,大概1.5token/s到2tokens/s之间,再多的话没测过,虽然这速度也不是不能用,三卡应该就能正常用了,当然,选择更大显存的A100或者8卡4090,即可全部吃下,飞快使用
[KTransformers支持DeepseekR1和V3在单个(24GB显存)/多GPU和382GB内存上的运行,速度提升可达3至28倍。]

  • 对内训和通讯要求比较高,而且ktransformers的多GPU策略为pipline,无法加速模型的推理,仅用于模型的权重分配。速度还没有单卡的快

• 特点:

  • 通过量化技术进一步压缩模型大小,降低权重精度(如从 FP32 到 INT8),减少显存占用。
  • 性能表现:推理速度更快,能耗低,但可能牺牲部分精度,尤其是在复杂任务中。
  • 适用场景:适合在移动端或边缘设备上运行,对模型大小和运行效率有严格要求的场景。

(五)满血版和全尺寸版的区别

• 满血版:

  • 更强调模型本身的性能和能力(如参数量、推理能力等)。
  • 是一个“软件”概念,指模型的最强版本。

• 全尺寸版:

  • 更强调模型的集成方式,即是否完整地集成到某个系统或设备中。
  • 是一个“硬件+软件”概念,指设备或系统是否支持完整的 DeepSeek 功能。

(六)生动的例子

假设我们有一辆汽车,汽车的“引擎”可以类比为 DeepSeek 模型:

  • 满血版:就像是一辆汽车配备了最强的引擎,拥有最大的马力和最高效的动力输出。这个引擎可以单独用于赛车,也可以用于高性能的家用汽车。
  • 全尺寸版:则像是将这辆高性能汽车完整地组装到一个运输系统中,用户可以直接驾驶这辆汽车,而不需要更换引擎或调整其他部件。

(七)应用场景

• 满血版:

  • 适用于需要高性能计算的场景,如复杂的数学推理、代码生成、长文本处理等。
  • 可以通过云服务或本地部署的方式提供支持。

• 全尺寸版:

  • 适用于需要完整 AI 功能的设备或系统,如智能手机、智能办公系统等。
  • 例如,中兴努比亚的 Z70 Ultra 手机内嵌了 DeepSeek 全尺寸版,用户可以直接使用完整的 DeepSeek 功能。

(八)总结

  • DeepSeek 满血版:指模型的最强版本,拥有最高的性能和最多的参数。

  • DeepSeek 全尺寸版:指将完整的 DeepSeek 功能集成到某个系统或设备中,提供无缝的用户体验。

  • 两者结合:例如在智能手机或云服务中,用户可以享受到既强大又便捷的 AI 体验。


结语

今天的内容可能有点多,但希望大家能有个大致的理解。这些术语虽然听起来复杂,但其实都是为了让模型更聪明、更高效。如果大家还有任何问题,或者对某个术语感兴趣,欢迎随时提问!有误的地方也请大家指正

谢谢大家!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI仙人掌

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值