第一章 基础介绍
1.章节目标
了解LLM 构建过程、扩展法则(Scaling Law)、涌现能力(Emergent Abilities)
2.构建过程
2.1 一句话概述
使用大规模数据对模型进行参数优化
影响关键能力的点:收集高质量、多源化的数据 & 对数据进行严格清洗
2.2 预训练
2.2.1 定义
使用与下游任务无关的大量数据集对模型参数进行初始训练,相当于给大模型参数找到一个很好的“初值点”
2.2.2. 流程:
> 准备大规模文本数据
> -> 对数据清洗,去除有害有毒的内容
> -> 将数据词元化(Tokenization)
> ->分批次(Batch)给大模型进行预训练
2.2.3 数据量:
2-3T(Trillion:万亿)规模的词元量
2.3 指令微调与人类对齐
2.3.1 目的
由于预训练任务形式所限,这些预训练模型更擅长文本补齐,不适合解决具体的任务,因此需要对大模型进行指令微调和对齐,让大模型更好地解决任务/问题。
2.3.2 微调技术
(1)当前主流:指令微调,也叫有监督微调(SFT:Supervised Fine-Tuning)
(2)流程:使用(输入,输出)配对数据对模型进行训练,使模型能够通过问答形式解决问题
(3)数据量:
数十万到百万
(4)效果:指令微调只能激发模型能力,而不是注入知识(无法教会大模型在预训练阶段没有学习到的知识和能力)
2.3.3 人类对齐
(1)流程:
基于人类反馈的强化学习对齐方法,RLHF(Reinforcement Learning from Human Feedback ),在指令微调后使用强化学习加强模型的对齐能力。
在RLHF中,主要训练了一个符合人类价值观的奖励模型(Reward Model),人类对大模型生成的多条输出进行偏好排序,使用偏好数据训练奖励模型,用于判断模型的输出质量。
经过上述两个过程,LLM能够具备较好的人机交互能力,通过问答形式解决人类提出的问题。
3.扩展法则
3.1 定义
实验证明,通过扩展参数规模、数量规模和计算算力,能有效提升大模型的能力(且这种性能提升显著高于改进架构、改进算法所带来的效果提升)
3.2 KM扩展法则
模型规模N、数据规模D、计算算力C
交叉熵损失:(Const开头均为常量)
Loss(N) = (ConstA/N)^ConstB,
Loss(D) = (ConstE/D)^ConstF,
因此,Loss与N、D成反比,N、D越大,Loss越小,Loss越小,模型效果越优
3.3 chinchilla扩展法则
Nopt© = (C/ConstM)^ConstN
Dopt© = (C/ConstP)^ConstQ’
C越大,
4.涌现能力
4.1 定义
在小模型中不存在,但在大模型中出现的能力,
指当模型扩展到一定规模时,模型特定任务的性能出现显著提升的趋势。
4.2 三种典型涌现能力
4.2.1 上下文学习(ICL:In-context Learning)
定义:预训练模型不需要经过调参或finetuning,就可以完成新任务的能力(需要提供输入输出示例)
4.2.2 指令遵循(Instruction Following)
定义:大语言模型能够根据自然语言指令来执行对应的任务
为了获得这个能力,需要:使用自然语言描述的多任务示例数据集进行微调,被称为指令微调(Instruction Tuning)或者监督微调(Supervised Fine-Tuning)
4.2.3 逐步推理(step-by-step reasoning)
小模型无法处理需要多步骤推理的复杂任务,而大模型可以通过利用思维链(Chain of Thought, CoT)提示策略来提升推理能力,具体来说:大模型通过在提示中引入中间推理步骤,从而获得复杂任务更可靠的答案。
1708

被折叠的 条评论
为什么被折叠?



