GPT系列

Fhd-学习笔记

已于 2024-10-15 14:04:56 修改

阅读量789

点赞数 5

分类专栏： NLP 文章标签： gpt

于 2024-10-08 12:07:06 首次发布

本文链接：https://blog.csdn.net/fanghuidi/article/details/142756226

版权

NLP 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

GPT（Generative Pre-Training）：

训练过程分两步：无监督预训练+有监督微调

模型结构是decoder-only的12层transformer

1、预训练过程，窗口为k，根据前k-1个token预测第k个token，训练样本包括7000本书的内容

2、微调过程，使用有标记的样本，样本输入预训练模型，使用最后一层transformer的输出，接linear+softmax层，预测输出

损失函数如下

使用L1作为辅助优化目标有两点好处，首先能够提高模型的泛化能力，第二是能够加速收敛。

3、不同任务的输入格式适配：将结构化的输入转化为有序序列

GPT系列演化参考文档：简单之美 | GPT 系列模型技术演化之路

GPT-2

GPT-2 沿用了GPT-1 的类似架构，将参数规模扩大到1.5B，并使用大规模网页数据集WebText 进行预训练。

与 GPT-1 不同，GPT-2 将层归一化（Layer Normalization）操作移到了每个 Encoder Block 输入之前。在最后一个self-attention block后加normaliztion。

GPT-2在无监督预训练阶段学习了大量的自然语言文本，在做下游任务时，无需微调，只需简单的Zero-shot Learning

GPT-3

预训练后，不微调，使用上下文学习（In Context Learning，ICL）

引入稀疏注意力机制

GPT-3 就是使用的普通 Transformer 和 Sparse Transformer 的混合模式。Sparse Transformer 的特点是只关注 Top-k 个贡献最大的特征的状态，它使用稀疏注意力机制替代了 Transformer 的密集注意力。

GPT-3.5/InstructGPT

代码数据训练和人类偏好对齐

基于人类反馈的强化学习算法RLHF

基于GPT-3进行微调，三个阶段的微调方法和过程，可以通过下图给出的步骤来简要说明

分别对应于上面提到的三个模型（SFT 模型、RM 模型、RL 模型），InstructGPT 的训练过程主要包括如下三个步骤：
Step 1: Collect demonstration data, and train a supervised policy.
Step 2: Collect comparison data, and train a reward model.
Step 3: Optimize a policy against the reward model using PPO.

GPT-4

GPT -4是一个多模态大模型

GPT-4 的核心原理是，基于 Decoder-only 的 Transformer 自回归语言模型，即通过给定的文本序列，预测下一个词的概率分布，从而生成新的文本。GPT-4 采用了大规模的无监督预训练和有监督微调的方法，即先在海量的通用文本语料上进行预训练，学习文本的通用特征和规律，然后在特定的下游任务上进行微调，学习任务的特定知识，从而实现对任意文本的生成和理解。

OpenAI在技术报告中强调了GPT-4的安全开发重要性，并应用了干预策略来缓解潜在问题，如幻觉、隐私泄露等。