万字之文，梳理理解AI大模型_ai大模型算法-CSDN博客

本文链接：https://blog.csdn.net/m0_63171455/article/details/139162912

后面会接着梳理sora和SD的原理，然后总结每种模型的应用场景，也会深入对比其他算法。

大模型相关概念区分

大模型（Large Model,也称基础模型，即 Foundation Model）是指具有巨大参数量的深度学习模型，通常包含数十亿甚至数万亿个参数。这些模型可以通过学习大量的数据来提高预测能力，能够处理海量数据、完成各种复杂的任务，在自然语言处理、计算机视觉、自主驾驶、语音识别等领域取得重要突破。
大模型的定义具体可以根据参数规模来分类。根据OpenAI的分类方法，可以将AI模型分为以下几类：
小型模型： ≤ 1百万个参数
中型模型：1百万 – 1亿个参数
大型模型：1亿 – 10亿个参数
超大型模型：≥ 10亿个参数
其中大型模型和超大型模型可以被视为AI大模型。超大模型是大模型的一个子集，它们的参数量远超过大模型。总的来说，“大模型”应该是基于具有超级大规模的、甚至可以称之为“超参数”的模型，需要大量的计算资源、更强的计算能力以及更优秀的算法优化方法进行训练和优化。

大语言模型（Large Language Model）：通常是具有大规模参数和计算能力的自然语言处理模型，例如 OpenAI 的 GPT-3 模型。这些模型可以通过大量的数据和参数进行训练，以生成人类类似的文本或回答自然语言的问题。大型语言模型在自然语言处理、文本生成和智能对话等领域有广泛应用。

GPT（Generative Pre-trained Transformer）：GPT 和 ChatGPT 都是基于 Transformer 架构的语言模型，但它们在设计和应用上存在区别：GPT 模型旨在生成自然语言文本并处理各种自然语言处理任务，如文本生成、翻译、摘要等。它通常在单向生成的情况下使用，即根据给定的文本生成连贯的输出。

ChatGPT：ChatGPT 则专注于对话和交互式对话。它经过特定的训练，以更好地处理多轮对话和上下文理解。ChatGPT 设计用于提供流畅、连贯和有趣的对话体验，以响应用户的输入并生成合适的回复。

大模型词义解释

数据预处理：首先，需要对原始数据进行清洗、整理和标注，以便为模型提供合适的输入。这一阶段可能包括去除噪声、填充缺失值、归一化等操作。

构建神经网络：接下来，根据任务需求，设计并搭建一个神经网络。神经网络通常由多个层次组成，每个层次包含若干个神经元。神经元之间通过权重连接，用于表示输入数据与输出数据之间的关系。
前向传播：将经过预处理的数据输入到神经网络中，按照权重计算得出各层神经元的输出。这个过程称为前向传播。

激活函数：在神经网络的每一层之后，通常会使用激活函数(如ReLU、Sigmoid或Tanh等)对输出进行非线性变换，以增加模型的表达能力。

损失函数：为了衡量模型预测结果与真实目标之间的差距，需要定义一个损失函数。损失函数会计算预测误差，并将其作为优化目标。常见的损失函数有均方误差(MSE)、交叉熵损失(Cross-Entropy Loss)等。

优化算法：根据损失函数，选择合适的优化算法(如梯度下降、随机梯度下降、Adam等)来更新神经网络中的权重和偏置，以减小损失函数的值。这个过程称为反向传播。

训练与验证：重复执行上述步骤，直到模型在训练集上达到满意的性能。为了防止过拟合，还需要在验证集上评估模型的泛化能力。如果发现模型在验证集上的表现不佳，可以调整网络结构、超参数或训练策略等。
部署与使用：当模型在训练集和验证集上表现良好时，可以将数据模型进行部署和使用。

RAG：检索增强生成，它是从外部知识库检索事实，结合大预言模型针对用户的问题作出会打。它确保模型能够访问最新、可靠的事实，并且用户能够访问模型的来源，确保可以检查其声明的准确性。RAG开源工具包LangChain，LlamaIndex提供了构建RAG的众多组件：文本读取、索引、存储、大模型、评估。RAG是一种范式，需要根据场景定制达到最好效果。

residual connection（残差连接）：Residual的做法就是将输入加到输出上，作为最后的输出，这种思想在Resnet中提出。（假设神经网络某一层对input x进行了一个F操作，变为F(x)，那么正常的神经网络输出为F(x)，而加入残差连接以后，输出为x+F(x)）。
残差结构的好处：显而易见：因为增加了一项，那么该层网络对x求偏导的时候，多了一个常数项，所以在反向传播过程中，梯度连乘**，不会造成梯度消失，这解决了深度神经网络的退化问题，同等层数的前提下残差网络也收敛得更快**（这里可以理解为通过计算残差，下一层中只需继续优化未匹配的地方，所以收敛快。）。
Layer normalization：是数据归一化的一种方式，计算均值和方差。即Transformer结构图中的Norm。
Masked Multi-head self-attention：self-attention计算了所有输入的相关性，但是有些任务中，输入是存在时间（或空间）差异的，即有的输入不需要与后面的输入计算相关性，所以采用masked的做法，遮掩其后面的输入。

FNN前馈网络：本质上就是几层神经网络层，其中间采用ReLU激活函数，两层之间采用_残差_连接。

词嵌入算法Embedding：它将每个词转换为一个词向量

上下文学习(In-context learning) ：一种通过在提示中加入特定任务示例来改进提示的方法，为LLM提供了完成任务的蓝图。

零样本(Zero-shot)推理：是在提示中直接使用输入数据，不添加额外示例

单样本(One-shot)推理：使用单样本推理
少样本(Few-shot)推理：使用少样本推理

（如果零样本推理未能达到预期结果，可以使用单样本或少样本推理。这些策略涉及在提示中添加一个或多个已完成的示例，帮助较小的LLM表现得更好。）

微调：是一个监督学习过程，这意味着你使用标记好的示例数据集来更新LLM的权重。

反向传播（backpropagation）是神经网络中最常用的训练算法之一，主要用于计算神经网络中各个权重的梯度，从而使得网络能够适应不同的输入数据并提高预测准确度。其基本思想是通过将误差从网络输出层反向传播至输入层，利用链式法则计算各个层的权重梯度，从而进行权重更新，以最小化误差函数。

反向传播的具体实现过程中需要注意以下几点：

首先需要确定误差函数，通常使用均方误差（MSE）作为误差函数。接着需要使用前向传播计算出神经网络的输出结果。然后，通过将误差从输出层向输入层反向传播，计算出各个权重的梯度。最后，使用梯度下降等优化算法更新权重值，重复进行训练直至达到预期效果。

梯度下降算法是一种常见的优化算法，它通过迭代的方式来更新模型参数，使得目标函数的值逐步下降，从而达到最优化的目的。具体来说，梯度下降算法每次迭代的步骤如下：

1. 计算目标函数关于模型参数的梯度。
2. 根据梯度方向和学习率确定下一步的移动方向和步长。
3. 更新模型参数。
4. 重复以上步骤直到满足停止条件。

其中，学习率是控制每次迭代更新的步长大小的超参数。如果学习率设置过大，可能会导致算法无法收敛；如果学习率设置过小，可能会导致算法收敛速度过慢。

梯度下降算法有三种不同的形式：批量梯度下降（BGD）、随机梯度下降（SGD）和小批量梯度下降（MBGD）。BGD每次迭代使用全部样本计算梯度，收敛速度慢但能够得到全局最优解；SGD每次迭代只使用一个样本计算梯度，收敛速度快但容易陷入局部最优解；MBGD每次迭代使用一部分样本计算梯度，综合了BGD和SGD的优点，是目前最常用的优化算法之一。

梯度下降，可以理解为导数，也就是下降率，达到最小的损失函数，损失函数对m和b的导数

Self-attention 自注意力层

vector：词向量

Query向量：Q

Key向量：K

Value向量：V

权值矩阵：W^Q，WK，W^V，这是通过学习得到，需要更新

Q、K、V是由嵌入向量*权值矩阵得到：X*（W^Q、WK、 W^V）

计算两个矩阵相似度的方法之一：点积

RLHF：基于来自人类反馈的强化学习

PPO：近端策略优化

RM：奖励模型(Reward Model)

大语言模型的发展

大模型相较于传统特定领域训练出来的语言模型，有更广泛的应用场景。

Transformer模型的提出

在Transformer提出之前，自然语言处理领域的主流模型是循环神经网络RNN，使用递归和卷积神经网络进行语言序列转换。

2017年，谷歌大脑团队在人工智能领域的顶会NeurIPS发表了一篇名为“Attention is all you need”的论文，首次提出了一种新的简单网络架构，即 Transformer，它完全基于注意力机制(attention)，完全摒弃了循环递归和卷积。

递归模型通常沿输入和输出序列的符号位置进行计算，来预测后面的值。但这种固有的顺序性质阻碍了训练样例内的并行化，因为内存约束限制了样例之间的批处理。而注意力机制允许对依赖项进行建模，而无需考虑它们在输入或输出序列中的距离。

Transformer避开了递归网络的模型体系结构，并且完全依赖于注意力机制来绘制输入和输出之间的全局依存关系。

在八个P100 GPU上进行了仅仅12个小时的训练之后，Transformer就可以在翻译质量方面达到新的最先进水平，体现了很好的并行能力。

总结两个核心突破：

1）突破了远距离文本依赖的学习限制，避开了递归网络的模型体系结构，并且完全依赖于注意力机制来绘制输入和输出之间的全局依赖关系。

2）可高度并行进行训练，这对发挥硬件红利以及快速迭代模型非常重要。下图是论文提到的Transformer模型，对编码器和解码器使用堆叠式的自注意力和逐点式、全连接层，分别如图1的左半部分（编码器）和右半部分（解码器）所示。

**OpenAI基于该工作基础上发展了GPT（Generative Pre-training）**生成式预训练模型。

生成式预训练初现潜力：GPT-1

2018年，OpenAI公司发表了论文“Improving Language Understanding by Generative Pre-training”，使用的模型有两个阶段，第一阶段是无监督预训练，基于海量的文本集通过Transformer学习一个大容量的语言模型，第二阶段基于标注数据进行参数微调。

得到的一般任务不可知模型（或称为通用模型）优于经过判别训练的模型，在论文选定的12种数据集中有9个取得更好效果。

在 GPT-1 中，采用了 12 层Transformer 的结构作为解码器，每个 Transformer 层是一个多头的自注意力机制，然后通过全连接得到输出的概率分布。这次实践对OpenAI来讲，我觉得是奠定了他们往这个路线发展的核心因素，

主要有几个重点突破：

1）、证明了通用模型训练具有很大的价值潜力。之前用于学习特定任务的标注数据难以获得，导致模型效果不能持续提升，而通过Transformer无监督训练+少量标注数据的Finetune就取得了更优的效果。

2）、论文尝试增加Transformer中间层，在从2层到12层的数量增加中，平均每增加1层能够提升9%的准确性。加上Transformer本身具备并行能力，这在GPU上无疑潜力巨大。

3）、论文发现在第二步的Finetune中添加语言建模作为辅助学习目标，能够提高监督模型的泛化能力，并加速收敛。说明在更海量的数据集时，模型会更收益于辅助学习目标。但GPT-1在生成长文本时，仍然会出现信息遗忘和重复等问题，和特定领域的模型对比还有很多不足。

泛化能力突破：GPT-2

2019年，OpenAI发表了最新进展，一篇“Language Models are Unsupervised Multitask Learners”的论文。重点实践了更大的模型更广的数据集具有更好的泛化能力。GPT-1是12层的transformer，BERT最深是24层的transformer，GPT-2则是48层，共有15亿个参数的transformer，训练集叫WebText，是从4500万个链接提取文本去重后，得到800万文档共40GB文本。论文认为现有系统用单个任务来训练的单个领域数据集，是缺乏模型泛化能力的主要原因，因此在更广的数据集上，GPT-2采用了多任务（multitask)的方式，每一个任务都要保证其损失函数能收敛，不同的任务共享主体transformer参数。最终训练出来的模型在不需要任何参数和模型改动下，在zero-shot（零样本）任务中，在8个数据集中有7个表现为业界最优，这个泛化能力可以说已经很强大了，并且在机器翻译场景取得亮眼结果，GPT也是在2.0出来后，开始备受关注。

更大参数更大数据集：GPT3

2020年发布，之前的模型要在特定领域有更好表现，依然需要上千条标注样本数据来进行finetune，很大程度影响了模型的通用性，而人类能够根据前面一句话知道语境（in-context)，从而正确回答问题。GPT3就通过调大参数(1750亿）来测试in-context 学习能力，并在没有finetune情况下得到以下数据。在参数不断增加的同时，分为三种场景看回答准确率表现：Zero-shot（0样本），One-shot（只给一个标准样本），Few-shot（少量标准样本，1000条左右）。下图可以看到模型参数和样本集对正确性的影响，随着参数增多，Few-shot相比Zero-shot的提升效果在拉大，说明越大的参数对样本具有更强的泛化能力。

火爆的ChatGPT：GPT 3.5

2022年3月，OpenAI再次发表论文“Training language models to follow instructions with human feedback”，通过人工反馈和微调，使语言模型与用户对各种任务的意图保持一致。并推出了InstructGPT模型，InstructGPT 是基于 GPT-3 的一轮增强优化，所以也被称为 GPT-3.5。尽管GPT3.5还会犯一些简单的错误，但论文工作表明利用人类反馈进行微调是一个很有前景的方向。

InstructGPT模型的参数为1.3B，而GPT-3模型的参数为175B，约为InstructGPT模型的130倍，但InstructGPT模型的输出却优于GPT-3模型的输出。

训练过程首先聘请了40个承包商来标注数据，收集提交给OpenAI的prompts的人工答案样本集，以及一些人工写的prompts作为训练监督学习的基线。

然后，在更大的prompts集上对比OpenAI的输出，并人工标记差距，据此训练出一个奖励模型(Reward Model)来预测人类喜好的输出。

最后用PPO来最大化这个奖励模型和fine-tune对监督模型的效果。这部分具体技术细节将在后面展开。

论文认为模型如果有价值观的话，体现更多的是标注者的价值观念而不是更广泛人的价值观。

对人类任务意图的识别，是一个非常重要的能力。ChatGPT 采用 InstructGPT 相同结构的模型，针对 Chat 进行了专门的优化，同时开放到公众测试训练，以便产生更多有效标注数据。

基于人类反馈的强化学习（RLHF）是 ChatGPT 区别于其他生成类模型的最主要特点，该法帮助模型尽量减少有害的、不真实的及有偏见的输出，提升自然沟通效果。同时，为了更好地支持多轮对话，ChatGPT 引入了一种基于堆栈的上下文管理的机制，帮助 ChatGPT 跟踪和管理多轮对话中的上下文信息，从而在多轮对话中生成连贯自然的回复。2022年11月发布。

GPT-4

2023年3月14日发布的新模型，是一个多模态大模型，是指第四代[自然语言处理]领域的大型预训练语言模型，没有免费版本。先有ChatGPT再有GPT-4

GPT-4和ChatGPT区别：

GPT-4和ChatGPT都是自然语言处理领域的大型语言模型，都是基于 Transformer 架构的语言模型，但它们有以下主要区别：

模型结构：GPT-4是GPT系列的最新版本，拥有更大的模型规模和更多的参数，是大型多模态模型（接受图像和文本输入，发出文本输出）。这种规模的增加使得GPT-4能够处理更复杂的任务并生成更准确、更多样化的文本。而。ChatGPT则是一种基于GPT的聊天[机器人]模型，核心技术是基于GPT模型的自然语言处理算法，通过多层感知机和注意力机制来对自然语言文本进行处理和生成，这使得机器人生成的回答更加贴近实际情况，符合人类的语言特点。

规模和计算资源：GPT-4的模型规模更大，参数量达到了1. 75万亿，比之前的GPT-3的参数量增加了50%，这使得它的能力和性能更加卓越。ChatGPT的模型规模相对较小，参数量只有1. 6万亿，更适合于实时的交互式的对话场景。GPT-4需要更多的计算资源和存储空间，而ChatGPT则更加注重交互体验和实时性，需要更快的响应速度和更低的延迟。

训练数据和训练方法：GPT-4使用了大规模的文本语料库进行训练，包括互联网上的数据、书籍、论文等。而ChatGPT针对对话领域进行了专门优化，从大量的对话数据中学习并进行模型的强化学习优化。这使得两者在处理任务和生成回复时有所差异。

理解和推理能力：GPT-4在复杂问题的思考上表现得更智能，可以推断出例如因果关系等事物内在的联系，并且可以根据上下文调整应对策略，尝试回答各种自然语言问题，并提供相关的知识和信息。相比之下，ChatGPT的理解和推理能力较为一般，主要进行简单的理解和推理。

应用领域：GPT-4被广泛应用于文本摘要、对话生成、机器翻译、文本生成、文本分类、问答系统等多个领域，广泛应用于自然语言处理领域的各种应用中。

ChatGPT则专注于聊天交互和情感沟通，它经过特定的训练，以更好地处理多轮对话和上下文理解，以响应用户的输入并生成合适的回复。主要应用于聊天机器人、客服机器人、智能客服、智能助手、社交媒体、教育等领域，专注于与用户进行自然的富有表现力的交流，比如可以写文案、通知、总结、提纲、简历、故事、做策划、营销方案、工作计划、总结、编程写代码、写朋友圈、抖音、小红书文案、写旅游攻略。

可视化和应用前景：GPT-4还具备视觉分析能力，这是ChatGPT所不具备的。它不仅可以识别和处理文本内容，还能够处理图像、视频等内容。此外，由于其卓越的性能和多领域的适用性，GPT-4具有更加广阔的应用前景。

开放程度和使用门槛：目前GPT-4还没有完全开放给公众使用，主要在研究机构和大型企业中得到应用。相反，ChatGPT在某些版本中已对公众开放，更容易被广泛应用于不同领域的项目中。

总的来说，GPT-4是一个功能更全面、性能更强大的自然语言处理模型；而ChatGPT则在特定领域内表现出色，特别是在与用户的实时交流方面。

目前推出的主流大模型

2022年11月30日，由总部位于旧金山的OpenAI推出ChatGPT3.5。
2023年2月， Google推出类似于ChatGPT的对话人工智能服务Bard，基于其开发的对话编程语言模型(LaMDA)。但有很多限制，文字处理仅支持美式英语。
2023年3月12日，OpenAI发布多模态模型GPT-4，并计划推出图像输入功能。
2023年2月，百度也于确认类ChatGPT聊天机器人项目名字确定为"文心一言"，英文名ERNIE Bot。
2023年2月，复旦大学自然语言处理实验室邱锡鹏教授团队推出对话式大型语言模型MOSS。
2023年3月14日，由清华技术成果转化的公司智谱AI基于GLM-130B千亿基座模型的ChatGLM开启邀请制内测，同时开源了中英双语对话模型ChatGLM-6B，支持在单张消费级显卡上进行推理使用。
2023年4月7日，阿里云研发语言模型“通义千问”开始邀请用户测试体验。现阶段该模型主要定向邀请企业用户进行体验测试，获得邀请码用户可通过官网参与体验
2023年5月6日，科大讯飞发布认知大模型“星火”。科大讯飞董事长刘庆峰表示，当前讯飞星火认知大模型已经在文本生成、知识问答、数学能力三大能力上已超ChatGPT，10月底将整体赶超ChatGPT。
2023年3月，由前OpenAI员工共同创立的初创公司Anthropic推出了大型语言模型Claude。它可以被指示执行一系列任务，包括搜索文档，总结，写作和编码，以及回答有关特定主题的问题。
2023年3月，华为宣布即将推出盘古大模型。

大模型技术细节

AI大模型的训练主要分为：

数据预处理、模型构建、模型训练、模型评估四个步骤，更加详细的介绍如下所示:

Transformer模型的作用

基于seq2seq架构的Transformer模型可以完成NLP领域研究的典型人物，如机器翻译、文本生成等，同时又可以构建预训练语言模型，用于不同任务的迁移学习。

Transformer模型总体架构可分为4部分：输入部分、输出部门、编码器部分、解码器部分

输入部分包括：源文件嵌入层及位置编码器；目标文本嵌入层及位置编码器
输出部分包括：线性层和softmax层
编码器部门：

由N个编码器堆叠而成；每个编码器层由2个子层连接结构组成；第一个子层连接结构包括一个多头注意力子层和规范化层以及一个残差连接；第二个子层连接结构包括前馈全连接子层和规范化层以及一个残差连接；

也可以说每个编码器由两个子层组成**：Self-Attention 层（自注意力层）和 Position-wise Feed Forward Network（前馈网络，缩写为 FFN**）

解码器部门：

由N个编码器堆叠而成；每个编码器层由3个子层连接结构组成；第一个子层连接结构包括一个多头自注意力子层（Masked Multi-head self-attention：用来帮助解码器关注输入句子中需要关注的相关部分）和规范化层以及一个残差连接；第二个子层连接结构包括多头注意力子层和规范化层以及一个残差连接；第三个子层连接结构包括前馈全连接子层和规范化层以及一个残差连接；

编码器对文本的处理

对文本处理和通常的 NLP 任务一样，首先使用词嵌入算法（Embedding）将每个词转换为一个词向量(vector)。嵌入仅发生在最底层的编码器中，其他编码器接收的是上一个编码器的输出。这个列表大小是我们可以设置的参数——基本上这个参数就是训练数据集中最长句子的长度。对输入序列完成嵌入操作后，每个词都会流经编码器内的两层，然后逐个编码器向上传递。

self-attention

突破了文本关注距离的限制；计算并行化

每个单词有3个不同的向量，他们分别是Query向量（Q）,Key向量（K）和Value向量（V），长度均为64。它们都是通过3个不停的权值矩阵由嵌入向量X乘与三个不同的权值矩阵W^Q，WK，W^V得到，其中单个矩阵的尺寸也是相同的。均是512 x 64。

Query向量（Q）,Key向量（K）和Value向量（V）的概念取自于信息检索系统，举个简单的搜索例子：

当你在某电商平台搜索某件商品（年轻女士冬季穿的红色薄款羽绒服）时，你在搜索引擎上输入的内容便是Query，然后搜索引擎根据Query为你匹配Key（例如商品的种类，颜色，描述等），然后根据Query和Key的相似度得到匹配的内容（Value)。

self-attention中的Q，K，V也是起着类似的作用，在矩阵计算中，点积是计算两个矩阵相似度的方法之一。

多注意力机制 Multi-headed attention

增加了自注意能力：

1.扩展了关注的位置，使之同时关注多个不同位置

2.它为注意力层提供了多个“表示子空间”

论文用了8个注意头，那就有8组不同的Q/K/V矩阵，每个输入的词向量都被投影到8个表示子空间中进行计算。

图：

ChatGPT是如何提升训练效果的？

ChatGPT的背后是大型语言模型 (LLM) 生成领域的新训练范式：RLHF ，即基于来自人类反馈的强化学习来优化语言模型。关于RLHF训练有个TAMER框架值得参考。RLHF 是一项涉及多个模型和不同训练阶段的复杂概念，这里我们按三个步骤分解：预训练一个语言模型 (LM) ；聚合问答数据并训练一个奖励模型 (Reward Model，RM) ；用强化学习 (RL) 方式微调 LM。

GPT3训练后的大语言模型是根据概率分布，计算出下一个最大可能的词，他不管事实逻辑上的准确性，也没有所谓的意识，所以有时会一本正经地胡说八道。

RLHF是用生成文本的人工反馈作为性能衡量标准，或更进一步用该反馈作为奖励来优化模型，使得在一般文本数据语料库上训练的语言模型能和复杂的人类价值观对齐。首先，我们使用经典的预训练目标训练一个语言模型。对这一步的模型，OpenAI 在其第一个流行的 RLHF 模型 InstructGPT 中使用了较小版本的 GPT-3。

然后进行以下步骤：

第一步：训练监督策略语言模型GPT-3本身无法识别人类指令蕴含的不同意图，也很难判断生成内容是否高质量。为了解决这一问题，训练过程是从数据集中随机抽取问题，由标注人员给出高质量答案，相当于提供了一系列人工编写的prompts和对应的答案数据集。然后用这些人工标注好的数据集微调GPT3.5模型，获得SFT模型(Supervised Fine-Tune)。

第二步：训练奖励模型训练方法：根据第一阶段的模型，随机抽取问题，给出多个不同的回答，人工选出最优答案进行标注，有点类似教学辅导。将高质量答案的奖励值进入下一轮强化学习RL，训练一个奖励模型来预测人类偏好的输出。RM 的训练是 RLHF 区别于旧范式的开端。这一模型接收一系列文本并返回一个标量奖励，数值上对应人的偏好。我们可以用端到端的方式用 LM 建模，或者用模块化的系统建模 (比如对输出进行排名，再将排名转换为奖励) 。这一奖励数值将对后续无缝接入现有的强化学习 RL 算法至关重要。关于模型选择方面，RM 可以是另一个经过微调的 LM，也可以是根据偏好数据从头开始训练的 LM。微调LM被认为对样本数据的利用率更高，但对于哪种 RM 更好尚无定论。

第三步：近端策略优化 (Proximal Policy Optimization，PPO)使用PPO优化奖励模型的策略。使用奖励模型的输出作为标量奖励，并使用PPO算法对监督策略进行微调，以优化该奖励。

训练方法：PPO的核心目的是将在线的人工学习转为离线学习，机器自己给自己打分。利用第二阶段训练好的奖励模型，在数据集中随机抽取问题，使用PPO模型生成多个回答，并用上一阶段训练好的RM模型分别给出质量分数。把回报分数按排序依次传递，产生策略梯度，通过强化学习的方式更新PPO模型参数。最后步骤二和步骤三可以循环迭代，可以不断完善模型。

总体来说，ChatGPT 在人工标注的prompts和回答里训练出SFT监督策略模型，再通过随机问题由模型给出多个答案，然后人工排序，生成奖励模型，再通过PPO强化训练增强奖励效果。最终ChatGPT能够更好理解指令的意图，并且按指令完成符合训练者价值观的输出。最后，大语言模型作为一个被验证可行的方向，其“大”体现在数据集广泛，参数和层数大，计算量大，其价值体现在通用性上，有广泛的应用场景。大语言模型能够发展，主要还是模型具备很好的并行扩展性，随着数据量和计算量的增加，主要挑战在工程和调优上。

大模型解决的问题

1.自然语言处理：AI大模型，例如 GPT-3 和 BERT，大幅提升了自然语言处理任务的性能，如翻译、问答、分词、文本生成等领域。AI大模型通过学习海量的语料库和上下文，让计算机更加准确地理解和处理自然语言。
2.计算机视觉：AI大模型，例如 ResNet 和 EfficientNet，推动了计算机视觉任务的发展，包括目标检测、图像分类、语义分割等领域。AI大模型通过学习大量的图像数据和构建更深更复杂的神经网络，使计算机能够对图像进行更加准确的识别和分析。
3.人脸识别：大模型，例如Facenet和 DeepFace，提高了人脸识别的准确性和鲁棒性，大幅度提升了人脸识别技术在安防、金融、医疗等领域的应用。
4.声音识别：AI大模型，例如Wav2Vec和Transformer，使语音识别技术取得了更高的准确性，大幅提高了语音识别技术在交互式应用和智能家居领域的应用。

大模型的优点和不足

优点:
1.更准确：AI大模型有更多的参数，能够处理更复杂的信息和更深入的上下文，提高了精度和准确性。
2.更智能：AI大模型能够模拟人类的思维和学习模式，通过大量的训练数据，从而提高人工智能的智能性。
3.更具通用性：AI大模型能够自适应不同的工作和环境，可以适应各种不同的自然语言、视觉和声音数据。
4.更加高效：AI大模型通过并行计算和分布式训练，大大提高了计算效率，能够在短时间内处理大量的数据。
不足:
1.计算资源问题：AI大模型需要更多的计算资源，如多台GPU和分布式计算等，高昂的成本阻碍了普及和应用。
2.数据集问题：AI大模型需要大量的标注数据，以便训练和优化模型。但实际场景中的数据通常是不完整、不一致和缺乏标注的。
3.可解释性问题：AI大模型对于预测结果的解释通常比较困难，难以解释其判断的依据和原因，使得大模型的使用和应用存在风险和误判的情况。
4.环境依赖：AI大模型对于使用语言、环境等存在更高的依赖性，需要针对特定场景进行定制和使用。
5.OpenAI承认ChatGPT"有时会写出看似合理但不正确或荒谬的答案"，这在大型语言模型中很常见，称作人工智能幻觉。其奖励模型围绕人类监督而设计，可能导致过度优化，从而影响性能，即古德哈特定律。

对社会影响

大模型在自然语言处理、计算机视觉、医疗诊断、交通控制等领域带来积极的影响。但与此同时，大模型也可能会带来以下一些社会影响：

1. 经济影响：AI大模型可能带来巨额投资，需要高昂的计算资源和优秀的人才团队。这可能会进一步加剧数字鸿沟，导致巨型科技公司的垄断，和对于小型企业和开发者的不利影响。
2. 就业影响：AI大模型在某些领域可以实现人机合作或自动化，减少人力资源的需求。
3. 隐私保护：用于训练大模型的数据往往包含大量的个人隐私数据，如医疗数据、银行账户等，保护这些数据的安全和隐私变得尤为重要。
4. 偏差问题：AI大模型的决策过程往往非常复杂，使得其决策过程难以解释，容易产生预测偏差。这可能导致偏见和歧视，需要制定合适的规范和标准来规范AI的开发和应用。
5. 引发伦理问题：AI大模型可能会对人类的价值观和道德观产生影响，引发一些伦理问题。例如，在自动驾驶汽车上出现道德困境时(如是否应该让一名行人通过), AI大模型可能会给出不同的答案，这可能会引起争议。