Transformer模型中各个结构的理解

最新推荐文章于 2024-08-01 11:18:28 发布

Yunpeng1119

最新推荐文章于 2024-08-01 11:18:28 发布

阅读量614

点赞数

分类专栏： Transformer

本文链接：https://blog.csdn.net/shaomjc/article/details/126910028

版权

Transformer模型由Encoder和Decoder构成，Encoder通过Multi-Head Attention和Positional Encoding处理输入，Decoder则使用Masked Multi-Head Attention防止未来信息泄露。多头注意力机制增强了模型的表达能力和位置敏感性，Residual Networks和Layer Normalization用于深层网络的训练和优化。Decoder的输出经过线性变换和Softmax层转化为单词概率预测。

摘要由CSDN通过智能技术生成

Transformer模型由Encoder和Decoder两部分组成。

Encoder的输入即是原始的word embedding。

Transformer模型中没有递归也没有卷积，所有以序列中每个标记的绝对（或相对）位置的信息用位置编码来表示。

第一个子层是Multi-Head Attention层，该子层利用多头注意力机制，利用线性变换将Q、K、V映射到不同的子空间(论文中num_heads = 8),从而希望可以学习到单词的不同表示。

Transformer模型使用了多层注意力机制来代替了single self-attention，以此来提升模型的效果。Multi-Head Attention的效果体现在以下两个方面：
（1）扩展了模型关注不同位置的能力。在不同的context中，使得单词"it"关注到不同的target word。
（2）增强了Attention机制对关注句子内部单词之间作用的表达能力。相比于single self-attention, Multi-Head Attention中的each head都维持了一个自己的Q、K、V矩阵，实现不同的线性转换，这样每个head也就有了自己特殊的表达信息。

背后的原理即是，当翻译一个单词的时候，会基于所问的问题的类型来对每个单词给予不同的关注程度。

Multi-Head Attention层后跟了一个Layer Normalizaiton用来对Attention输出的新的word representation进行标准化处理，以及一个Residual Network。

采用了Residual Network的作用是利用了残差网络可以当层数加深

最低0.47元/天解锁文章

Yunpeng1119

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Transformer模型中各个结构的理解

即将解码器的输入与编码器中编码好的每个单词的representation计算Attention score，然后计算Attention score与V的矩阵乘法，从而得到编码器中编码单词在解码器中待翻译单词中的表达。（而不像编码器中可以以并行的形式对句子中的所有单词进行Attention计算），即同Seq2Seq模型中解码器部分一样需要一个单词一个单词的进行输入，即我们只有在某一时刻预测出了某一单词后，才能继续预测后面的词。不妨假设我们的模型从训练集中学习一万个不同的英语单词（我们模型的“输出词表”）。
复制链接

扫一扫

专栏目录