LLM学习-持续更新中

原创已于 2025-10-09 14:16:49 修改 · 260 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #AIGC #人工智能 #汽车

于 2025-09-17 11:10:43 首次发布

第一章基础介绍

1.章节目标

了解LLM 构建过程、扩展法则（Scaling Law）、涌现能力（Emergent Abilities）

2.构建过程

2.1 一句话概述
使用大规模数据对模型进行参数优化
影响关键能力的点：收集高质量、多源化的数据 & 对数据进行严格清洗

2.2 预训练
2.2.1 定义
使用与下游任务无关的大量数据集对模型参数进行初始训练，相当于给大模型参数找到一个很好的“初值点”

2.2.2. 流程：

> 准备大规模文本数据 
> -> 对数据清洗，去除有害有毒的内容 
> -> 将数据词元化（Tokenization） 
> ->分批次（Batch）给大模型进行预训练

2.2.3 数据量：
2-3T（Trillion：万亿）规模的词元量

2.3 指令微调与人类对齐
2.3.1 目的
由于预训练任务形式所限，这些预训练模型更擅长文本补齐，不适合解决具体的任务，因此需要对大模型进行指令微调和对齐，让大模型更好地解决任务/问题。

2.3.2 微调技术
(1)当前主流：指令微调，也叫有监督微调（SFT：Supervised Fine-Tuning）
(2)流程：使用（输入，输出）配对数据对模型进行训练，使模型能够通过问答形式解决问题
(3)数据量：
数十万到百万
(4)效果：指令微调只能激发模型能力，而不是注入知识（无法教会大模型在预训练阶段没有学习到的知识和能力）

2.3.3 人类对齐
(1)流程：
基于人类反馈的强化学习对齐方法，RLHF(Reinforcement Learning from Human Feedback )，在指令微调后使用强化学习加强模型的对齐能力。
在RLHF中，主要训练了一个符合人类价值观的奖励模型（Reward Model），人类对大模型生成的多条输出进行偏好排序，使用偏好数据训练奖励模型，用于判断模型的输出质量。

经过上述两个过程，LLM能够具备较好的人机交互能力，通过问答形式解决人类提出的问题。

3.扩展法则

3.1 定义
实验证明，通过扩展参数规模、数量规模和计算算力，能有效提升大模型的能力（且这种性能提升显著高于改进架构、改进算法所带来的效果提升）

3.2 KM扩展法则
模型规模N、数据规模D、计算算力C
交叉熵损失：(Const开头均为常量)
Loss(N) = (ConstA/N)^ConstB,
Loss(D) = (ConstE/D)^ConstF,
因此，Loss与N、D成反比，N、D越大，Loss越小，Loss越小，模型效果越优

4.涌现能力

4.1 定义
在小模型中不存在，但在大模型中出现的能力，
指当模型扩展到一定规模时，模型特定任务的性能出现显著提升的趋势。

4.2 三种典型涌现能力
4.2.1 上下文学习（ICL：In-context Learning）
定义：预训练模型不需要经过调参或finetuning，就可以完成新任务的能力（需要提供输入输出示例）

4.2.2 指令遵循（Instruction Following）
定义：大语言模型能够根据自然语言指令来执行对应的任务
为了获得这个能力，需要：使用自然语言描述的多任务示例数据集进行微调，被称为指令微调（Instruction Tuning）或者监督微调（Supervised Fine-Tuning）

4.2.3 逐步推理（step-by-step reasoning）
小模型无法处理需要多步骤推理的复杂任务，而大模型可以通过利用思维链（Chain of Thought, CoT）提示策略来提升推理能力，具体来说：大模型通过在提示中引入中间推理步骤，从而获得复杂任务更可靠的答案。