NLP学习笔记1-Transformer

Carrie_Lei

已于 2024-08-22 07:59:58 修改

阅读量759

点赞数 14

分类专栏： NLP 文章标签：学习笔记 transformer

于 2024-08-22 07:56:54 首次发布

本文链接：https://blog.csdn.net/finly4599/article/details/141407720

版权

NLP 专栏收录该内容

16 篇文章 0 订阅

订阅专栏

Transformer 是一种深度学习模型架构，最初由 Vaswani 等人于 2017 年在论文《Attention is All You Need》中提出。Transformer 彻底改变了自然语言处理 (NLP) 领域，并逐渐扩展到图像处理和其他领域。它的核心是自注意力机制 (Self-Attention)，能够高效捕捉序列数据中的全局依赖关系。

Transformer 架构

Transformer 架构由编码器 (Encoder) 和解码器 (Decoder) 组成，每个部分包含多个相似的层级（一般为 6 层）。编码器处理输入序列，生成特征表示，解码器根据编码器的输出和解码器的输入生成目标序列。

1. 编码器 (Encoder)

每个编码器层包含两个主要部分：

多头自注意力机制 (Multi-Head Self-Attention):
- 自注意力机制允许每个输入元素与其他元素进行交互，计算每个元素对序列中其他元素的注意力权重。多头机制通过并行计算多个注意力头，捕捉不同的表示空间信息。
前馈神经网络 (Feed-Forward Neural Network):
- 一个简单的全连接网络，通常包含两个线性变换和一个非线性激活函数（如 ReLU）。前馈网络在注意力计算后进一步处理输入特征。
层归一化 (Layer Normalization) 和残差连接 (Residual Connection):
- 在自注意力和前馈神经网络之后，分别使用层归一化和残差连接，以加速训练和提高模型稳定性。

2. 解码器 (Decoder)

解码器的结构与编码器类似，但有一些关键的不同之处：

Masked Multi-Head Self-Attention:
- 解码器的自注意力机制采用了“掩码”（Masked）的策略，即在预测下一个词时，屏蔽后续的词，以确保模型只能利用已生成的词信息。
Encoder-Decoder Attention:
- 解码器在每层中还包含一个额外的注意力机制，直接与编码器的输出进行交互，以便解码器可以关注编码器生成的特征表示。