大模型相关基础（基于李沐）

博观而约取,厚积而薄发

已于 2023-11-27 14:26:14 修改

阅读量187

点赞数 1

分类专栏：大模型文章标签：人工智能

于 2023-10-18 10:55:04 首次发布

本文链接：https://blog.csdn.net/mddCSDN/article/details/133901030

版权

大模型专栏收录该内容

1 篇文章 0 订阅

订阅专栏

InstructGPT

介绍

ChatGPT用到的技术和InstructGPT一样的技术，区别是InstructGPT是在GPT3上微调，ChatGPT是在GPT3.5上微调。

InstructGPT论文发表在2022年3月4号，标题是《训练语言模型使得它们能够服从人类的一些指示》。

标题解释：语言模型是每次给定一段东西，然后去预测下一个词，是一个自监督学习，是没有标注的。如果你想让语言模型去解释费马小定理，那么你的训练文本中需要出现过相关的内容。训练的文本是几百亿这个数量级，你不知道里面会有什么东西，只能全送进去期待大力出奇迹。

但是这样做模型的控制能力太弱了，会有两个问题：

1、有效性，想让模型去学做一件事，但是模型就是学不会，因为你的文本中可能就没有相关的东西。

2、安全性，你的模型输出一些不应该输出的内容。

如何解决这两个问题呢，就是我们标一点数据，再把语言模型进行微调，效果会更好一些，能够更加服从人类的指示，也就是标题的意思。

这篇论文展示了怎么样对语言模型和人类意图之间进行匹配，方法是在人类的反馈上进行微调。

方法简介：收集很多问题，使用标注工具将问题的答案写出来，用这些数据集对GPT3进行微调。接下来再收集一个数据集，通过刚才微调的模型输入问题得到一些输出答案，人工对这些答案按好坏进行排序，然后通过强化学习继续训练微调后的模型，这个模型就叫InstrunctGPT。

结果上说，有了标注的数据集，1.3B的模型参数，InstructGPT要好过最大的175B个参数的GPT3。适当对数据进行人工的标注，可能反而总体的成本会降低。

思路

大的语言模型会生成有问题的输出，因为模型训练用的目标函数不那么对。

实际的目标函数：在网上的文本数据预测下一个词。

我们希望的目标函数：根据人的指示、有帮助的、安全的生成答案。

InstructGPT就是解决这个问题，方法是RLHF(reinforcement learning from human feedback)，基于人类反馈的强化学习。

重点：两个标注数据集，三个模型。

1、找人来写出各种各样的问题（或者从以前GPT3接口收集的问题），这些问题在GPT里面叫做prompt

例如：什么是月亮？

2、让人根据问题写答案

例如：围绕地球旋转的球形天体。

3、将问题和答案拼在一起，形成一段对话。大量这样的对话文本，形成第一个标注数据集。

例如：什么是月亮？围绕地球旋转的球形天体。

4、使用这些对话微调GPT3。GPT3的模型在人类标注的这些数据上进行微调出来的模型叫做SFT(supervised fine-tune)，有监督的微调。这就是训练出来的第一个模型。

5、给出一个问题，通过SFT模型生成几个答案，这里假设生成四个答案。

例如：什么是月亮？

SFT模型生成了四个答案：

A、月亮是太阳系中离地球最近的天体。

B、月亮是太阳系中体积第五大的卫星。

C、月亮是由冰岩组成的天体，在地球的椭圆轨道上运行。

D、月亮是地球的卫星。

6、将四个答案让人根据好坏程度进行排序。

例如：张三觉得答案D是最好的，其次是C，C比A要好，A和B差不多。就是D>C>B=A。

7、将大量的人工排序整理为一个数据集，就是第二个标注数据集。

8、使用排序数据集训练一个RM模型，reward model，奖励模型。这是第二个模型。

模型输入：问题+答案，例如：什么是月亮？月亮是地球的卫星。

模型输出：分数，例如：9.4。

优化目标：问题+答案得到的分数要满足人工排序的顺序。

例如：

什么是月亮？月亮是太阳系中离地球最近的天体。 5.4

什么是月亮？月亮是太阳系中体积第五大的卫星。 5.4

什么是月亮？月亮是由冰岩组成的天体，在地球的椭圆轨道上运行。 8.2

什么是月亮？月亮是地球的卫星。 9.4

这里得到的分数就满足张三的排序：D>C>B=A。

9、继续给出一些没有答案的问题，通过强化学习继续训练SFT模型，新的模型叫做RL模型(Reinforcement Learning)。优化目标是使得RF模型根据这些问题得到的答案在RM模型中得到的分数越高越好。这是第三个模型。

10、最终微调后的RL模型就是InstructGPT模型。

备注：两次对模型的微调：GPT3模型—>SFT模型—>RL模型，其实这里始终都是同一个模型，只是不同过程中名称不一样。

需要SFT模型的原因：GPT3模型不一定能够保证根据人的指示、有帮助的、安全的生成答案，需要人工标注数据进行微调。

需要RM模型的原因：标注排序的判别式标注，成本远远低于生成答案的生成式标注。

需要RF模型的原因：在对SFT模型进行微调时，生成的答案分布也会发生变化，会导致RM模型的评分会有偏差，需要用到强化学习。

数据收集

首先要收集问题集，prompt集：标注人员写出这些问题，写出一些指令，用户提交一些他们想得到答案的问题。先训练一个最基础的模型，给用户试用，同时可以继续收集用户提交的问题。划分数据集时按照用户ID划分，因为同一个用户问题会比较类似，不适合同时出现在训练集和验证集中。

三个模型的数据集：

1、SFT数据集：13000条数据。标注人员直接根据刚才的问题集里面的问题写答案。

2、RM数据集：33000条数据。标注人员对答案进行排序。

3、RF数据集：31000条数据。只需要prompt集里面的问题就行，不需要标注。因为这一步的标注是RM模型来打分标注的。

openai专门找了40个标注人员进行标注，需要长期交流的合同工，因为这些标注任务需要一定熟练度、对业务的理解、并需要做到随时沟通。

三个模型的解释

卢菁大模型微调实战和经验分享笔记

prompt

使用提示 (Prompt) 工程来提高 LLMs 在各种常见和复杂任务 (如间答和算术推理)上的能力

优点: 简单，易上手
缺点: 上限有限，针对不同模型需要做适配;投资人嫌薄;技术人嫌浅

基础prompt提示用法
。文本摘要(Text Summarization)

信息提取(Information Extraction)

问答(Question Answering)

文本分类(Text Classification)

对话(Conversation)

代码生成(Code Generation)

推理(Reasoning)

高级prompt提示用法
零样本提示(Zero-shot Prompting)。

少量样本提示(Few-shot Prompting)

思维链(COT)提示(Chain-of-Thought Prompting)

零样本CoT(Zero-shot CoT)
自洽性/自一致性(Self-Consistency)。

生成知识提示(Generate Knowledge Prompting)

自动提示工程(Automatic Prompt Engineer)

大模型的内核：Transformer

大模型调参难点
为什么很少直接微调?

1.参数多，内存不容易放下

2.参数多，需要对应更大数据

3.参数多，不容易收敛

4.参数多，i调参时间过长

参数高效微调方法( Parameter-Efficient Fine-Tuning，PEFT）

Prefix-Tuning/Prompt-Tuning: 在模型的输入或隐层添加k个额外可训练的前缀tokens(这些前缀是连续的伪 tokens，不对应真实的 tokens)，只训练这些前缀参数;
Adapter-Tuning: 将较小的神经网络层或模块插入预训练模型的每一层，这些新插入的神经模块称为 adapter (适配器)，下游任务微调时也只训练这些适配器参数;
LORA: 通过学习小参数的低秩矩阵来近似模型权重矩阵 W的参数更新，训练时只优化低秩矩阵参数。领域越垂直超参数越大

大数据类型

数据的分类:

网页数据 ( web data ): 量大。
专有数据 ( curated high-quality corpora ) : 质高。

模型需要数据

基座模型: GLM，GPT具备语言理解能力，但是不具备对话能力
使用数据:非结构化纯文本数据

对话模型:(ChatGLM，ChatGPT在基座模型的基础上，进行对话的专项训练

使用数据: 结构OA数据

幂律
Scaling Laws简单介绍就是: 随着模型大小、数据集大小和训练强度，模型的性能会提高。并且为了获得最佳性能，所有三个因素必须同时放大。当不受其他两个因素的制约时，模型性能与每个单独的因素都有幂律关系

参数量和数据量之间的关系

当同时增加数据量和模型参数量时，模型表现会一直变好。当其中一个因素受限时，模型表现随另外一个因素增加变好，但是会逐渐衰减。

计算资源不充足，6B到10B比较合适

大模型的分词 ( token）

分词粒度：

单词分词法:英文 (空格分词) ，中文 (jieba分词 or 分字)
单字分词法:(字母)，中文 (分字)英文
子词分词法: BPE，WordPiece，Unigram

模型压缩和加速
深度学习领域提出了一系列的模型压缩与加速方法：

剪枝(Parameter pruning)
低秩分解 (Low-rank factorization)
知识蒸馏(Knowledge distillation)
量化 (quantization)

量化：用低精度数据表示高精度数据

大规模语言模型：从理论到实践笔记

LoRA

假设预训练权重为 W0 ∈ R d∗k，可训练参数为 ∆W = BA，其中 B ∈ R d∗r，A ∈ R r∗d。初始化时，矩阵 A 通过高斯函数初始化，矩阵 B 为零初始化，使得训练开始之前旁路对原模型不造成影响，即参数改变量为 0。对于该权重的输入 x 来说：

h = W0x + ∆Wx = W0x + BAx

Qlora: Efficient finetuning of quantized llms实验对于 GPT-3 模型，当 r = 4 且仅在注意力模块的 Q 矩阵和 V 矩阵添加旁路时，保存的检查点大小减小了 10000 倍（从原本的 350GB 变为 35MB），训练时 GPU 显存占用从原本的 1.2TB 变为 350GB，训练速度相较全量参数微调提高 25%。

博观而约取,厚积而薄发

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
大模型相关基础（基于李沐）

ChatGPT用到的技术和InstructGPT一样的技术，区别是InstructGPT是在GPT3上微调，ChatGPT是在GPT3.5上微调。InstructGPT论文发表在2022年3月4号，标题是《训练语言模型使得它们能够服从人类的一些指示》。标题解释：语言模型是每次给定一段东西，然后去预测下一个词，是一个自监督学习，是没有标注的。如果你想让语言模型去解释费马小定理，那么你的训练文本中需要出现过相关的内容。训练的文本是几百亿这个数量级，你不知道里面会有什么东西，只能全送进去期待大力出奇迹。
复制链接

扫一扫