Transformer架构完整的处理流程

最新推荐文章于 2024-07-22 11:48:26 发布

chunmiao3032

最新推荐文章于 2024-07-22 11:48:26 发布

阅读量305

点赞数

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/chunmiao3032/article/details/134287512

版权

Transformer 是由多层的 Encoder 和 Decoder 构成的。每一层的 Encoder 和 Decoder 都包含了多头自注意力机制（Multi-head Self Attention）、前馈神经网络（Feed Forward）和添加及归一化（Add & Norm）。特别的，Decoder 还多了一个 Masked Multi-head Attention。

Transformer 完整的处理流程如下：

Input Embedding：这是第一步，将输入的词（比如英文句子中的单词）转化为向量。词嵌入可以将每个单词映射到一个连续的向量空间，相近的词在向量空间中的距离也比较近。这样就可以用向量来表示每个词，而这个向量就包含了这个词的语义信息。
Position Embedding：由于 Transformer 不像 RNN 那样有明确的顺序信息，所以需要加入位置编码来给出序列元素的位置信息。位置嵌入是一个与序列中词的位置有关的向量，这样模型就可以知道词的顺序了。
Multi-head Self Attention：这个过程是 Transformer 的核心，它使得模型可以关注到输入句子中的不同部分（即每个词不仅仅只关注自己，还会关注到其它词）。多头自注意力就是做了多次不同的自注意力计算，可以从不同的角度去学习词的信息。
Add & Norm：多头自注意力的输出会与输入相加（残差连接），然后进行层归一化（将输出压缩到一定范围内），这可以使得训练更稳定，加快收敛。
Feed Forward：接着进行前馈神经网络处理，这是一个对输入进行非线性变换的过程，能够进一步提取特征。
N层网络：前面提到的过程会在模型中重复 N 次。每一层都会学习到不同的特征，随着层数的增加，学到的特征也越来越抽象。
Masked Multi-head Attention：这是 Decoder 独有的部分，它不仅要关注到之前的词，还要关注到后面的词。但在训练过程中，为了防止看到未来的信息，会进行屏蔽操作，即在自注意力计算时，不关注到未来的词。
Output Embedding：最后，模型的输出会经过线性变换和 softmax 操作，得到每个词的概率分布，从而可以选出概率最高的词作为预测结果。

Output Embedding

Decoder 输出：Decoder 的最后一层输出（包含多头自注意力、Masked Multi-head Attention 和前馈神经网络）会被送到输出层。
线性变换：输出层首先对 Decoder 的输出进行线性变换，使得它的维度与词汇表大小相同。这样每个位置上的向量就对应着词汇表中每个词的分数。
Softmax：接着，对线性变换的结果进行 softmax 操作，将分数转换成概率分布。通过这一步，我们可以看到哪些词在当前位置的概率最高。
概率最大的词：在 softmax 的概率分布中，选择概率最大的词作为预测结果。在训练过程中，我们会将这个预测结果与实际的目标词进行比较，并计算损失，从而不断优化模型。

所以，在 Output Embedding 部分，还包括了 Decoder 输出、线性变换、Softmax 和选择概率最大的词等环节。希望这次的解释更加详细。

chunmiao3032

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer架构完整的处理流程

每一层的 Encoder 和 Decoder 都包含了多头自注意力机制（Multi-head Self Attention）、前馈神经网络（Feed Forward）和添加及归一化（Add & Norm）。特别的，Decoder 还多了一个 Masked Multi-head Attention。所以，在 Output Embedding 部分，还包括了 Decoder 输出、线性变换、Softmax 和选择概率最大的词等环节。希望这次的解释更加详细。
复制链接

扫一扫