1.直观理解
Transformer可以当做黑盒,丢进去一个 语言输入,便可以翻译成 相应语言输出。
有两大组成部分,一个是Encoders, 一个是Decoders (和数学之美中阐述的编码解码,有点类似)
再进一步,发现Encoders由6个 Encoder组成, Decoders也是由6个部分组成。
对于其中的每个Encoder,它们的结构是类似的,包含一个 self-attention 和 feed forward 层。
Self-Attention 帮助 Ecoder在编码单词 的过程中 查看输入序列中的其它单词,每个Dcoder也有类似的结构,中间多了一层Attention(作用还不清楚)
2.张量在网络中的流动
首先做文本的词嵌入,将词编码成 512 维的向量,将其作为最底层 Encoder的输入。 每个Encoder中的 Self-Attention的输入是存在关联的, 但是前馈层没有依赖,可以考虑并行计算。
3. Encoding
4.Self-Attention 的直观理解
假设有这句话 “The animal didn't cross the street because it was too tired
” 这里 “it” 的指代, 如果将 "tired” 替换成"wide", 这里的 "it" 又是指代的谁,对于计算机来讲,上下文不是特别友好。 Self-Attention的作用就是帮助"it"和“animal”建立连接.
5. Self-Attention 处理的细节
(1) 将词转换成 向量(512维)
(2) 将向量 与 相乘,得到三个向量。
(3) 将 与 点积,获得 n 个得分。
(4) 将得分 除以 , 这里为8
(5) 将第(4)步的结果,进行softmax
(6)将 与 softmax之后的得分,进行相乘
(7)将相乘之后的 n 个向量 累加,最终的向量作为当前词 在 self-attention 层的输出。
图示:(这里使用了多个 )
6. 矩阵计算
7.使用位置编码,表示序列的顺序
transformer为每一个 词向量都分配了一个位置向量,位置向量有这固定的生成方式,我们将位置向量添加到 词向量中,这样就可以添加词的位置信息了。
8.layer normalization
目的:防止梯度消失,使得数据分布更加合理。
...
9.Decoder部分
将encoder部分输出矢量组成的列表,转换成一组attention集合 (K,V), 将其带入Decoder部分的“encoder-decoder attention”层进行计算
上面的过程已经是推理过程了,训练阶段是怎么做的?
The Final Linear and Softmax Layer
参考: https://blog.csdn.net/qq_41664845/article/details/84969266