Transformer跟BERT、GPT的关系，看完就知道了

一条测试老狗

已于 2024-09-29 13:11:34 修改

阅读量588

点赞数 18

文章标签： transformer bert gpt

于 2024-09-28 18:24:44 首次发布

本文链接：https://blog.csdn.net/longxiaotian718/article/details/142619207

版权

Transformer变异衍生出来了两个超强悍的预训练模型

一、Transformer模型
Transformer是近年来深度学习领域中备受瞩目的模型之一，其核心思想是通过自注意力机制和位置编码来捕捉输入序列中的长距离依赖关系。
自注意力机制让模型在处理每个输入元素时能够关注到所有其他元素，从而学习到输入序列中的全局依赖关系。位置编码则用于解决传统RNN等模型在处理序列数据时对位置信息的忽略问题。
Transformer模型主要由两部分组成：编码器和解码器。编码器由多个相同的层堆叠而成，每个层包含一个自注意力子层和一个简单的全连接层。解码器同样由多个相同的层组成，但在每个解码层中还包含一个跨注意力子层，用于捕捉编码器的输出。

一张Transformer看烂了的图（还得多看几遍）

追加一张中文的图

二、BERT模型
BERT（Bidirectional Encoder Representations from Transformers）是一种基于Transformer的预训练语言模型，旨在通过双向训练来捕捉文本中的上下文信息。

BERT 代表双向编码器表示来自Transformer（BERT），用于高效地将高度非结构化的文本数据表示为向量。BERT是一个经过训练的 Transformer 编码器堆栈。

与GPT等模型不同，BERT在训练时同时考虑了文本的左信息和右信息，从而能够更好地理解上下文含义。这一特点使得BERT在许多NLP任务中取得了显著的性能提升。
BERT的基本结构与Transformer类似，由多个相同的编码器层堆叠而成。每个编码器层都包含一个双向的自注意力子层和一个前馈神经网络子层。