万字长文解读深度学习——GPT、BERT、T5

李歘歘

已于 2025-01-09 23:29:39 修改

阅读量1.5k

点赞数 23

分类专栏：人工智能 # 深度学习文章标签：深度学习 gpt bert T5

于 2024-11-09 22:19:54 首次发布

本文链接：https://blog.csdn.net/qq_42410605/article/details/142980441

版权

人工智能同时被 2 个专栏收录

56 篇文章

订阅专栏

深度学习

16 篇文章

订阅专栏

说明：
💡💡💡本文后续更新和完善将在新账号展开，请移步新地址：深度学习笔记——GPT、BERT、T5

历史文章

机器学习

深度学习

GPT（Generative Pre-trained Transformer）、BERT（Bidirectional Encoder Representations from Transformers）和T5（Text-To-Text Transfer Transformer）都是基于Transformer架构的自然语言处理模型，但它们在结构、训练方式和应用场景上有显著的区别。

一、GPT

GPT的全称是“生成式预训练模型”，其主要设计思想是通过大规模的语言建模任务进行预训练，并通过微调来解决下游的具体任务。GPT的结构特点如下：

Transformer解码器架构：
- GPT使用的是Transformer的**解码器（Decoder）**部分。这个架构主要由自注意力机制（self-attention）和前馈神经网络（Feedforward Neural Networks）组成。解码器可以处理序列数据，生成新的序列，因此适合生成任务，如文本生成。
单向（Autoregressive）语言模型：
- GPT是单向模型，即只能从左到右生成词语。输入的每个词只能依赖于前面的词，不能看后面的词。这种设计使得它在处理语言生成任务时很有效，但在理解句子整体时略显不足。
预训练任务：
- 预训练阶段，GPT通过自回归的语言建模任务进行训练，目标是预测句子中下一个词。然后，针对不同任务（如文本分类、问答等）进行微调。
适合生成任务：
- GPT强大的生成能力，自回归的生成文本，每次生成一个词并将其作为输入，再生成下一个词。这种方式使它特别适合生成连贯的段落和长文本。

为何采用单向Transformer

使用的是解码器，自回归生成模式。
使用了Masked Self-Attention(所谓Masked，即遮蔽的意思)，即句子中的每个词，都只能对包括自己在内的前面所有词进行Attention，这就是单向Transformer。

基于Transformer的优化

除了仅使用解码器堆叠的架构、未来遮蔽（自回归语言模型）外，还做了下面的优化。

层归一化位置

在标准 Transformer 中，层归一化（Layer Normalization）通常放在残差连接和前馈网络之后，而 GPT 将层归一化放在残差连接之前，称为 Pre-Layer Normalization。
这种调整有助于在深层网络中保持梯度的稳定性，并减轻训练深度模型时梯度消失的问题。