Transformer

最新推荐文章于 2024-08-20 11:13:49 发布

qq_36424540

最新推荐文章于 2024-08-20 11:13:49 发布

阅读量328

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36424540/article/details/95601460

版权

1.直观理解

Transformer可以当做黑盒，丢进去一个语言输入，便可以翻译成相应语言输出。

有两大组成部分，一个是Encoders, 一个是Decoders (和数学之美中阐述的编码解码，有点类似）

再进一步，发现Encoders由6个 Encoder组成， Decoders也是由6个部分组成。

对于其中的每个Encoder，它们的结构是类似的，包含一个 self-attention 和 feed forward 层。

Self-Attention 帮助 Ecoder在编码单词的过程中查看输入序列中的其它单词，每个Dcoder也有类似的结构，中间多了一层Attention(作用还不清楚）

2.张量在网络中的流动

首先做文本的词嵌入，将词编码成 512 维的向量，将其作为最底层 Encoder的输入。每个Encoder中的 Self-Attention的输入是存在关联的，但是前馈层没有依赖，可以考虑并行计算。

3. Encoding

4.Self-Attention 的直观理解

假设有这句话 “The animal didn't cross the street because it was too tired” 这里 “it” 的指代，如果将 "tired” 替换成"wide"，这里的 "it" 又是指代的谁，对于计算机来讲，上下文不是特别友好。 Self-Attention的作用就是帮助"it"和“animal”建立连接.

5. Self-Attention 处理的细节

（1）将词转换成向量（512维）

（2）将向量 $\large x_{i}$ 与 $\large W^q,W^k,W^v$ 相乘，得到三个向量。 $\large q_{i},k_{i},v_{i}$

(3) 将 $\large q_{i}$ 与 $\large k_{j}$ 点积，获得 n 个得分。

（4）将得分除以 $\large \sqrt{d_{k}}$ , 这里为8

（5）将第（4）步的结果，进行softmax

（6）将 $\large v_{j}$ 与 softmax之后的得分，进行相乘

（7）将相乘之后的 n 个向量累加，最终的向量作为当前词在 self-attention 层的输出。

图示:（这里使用了多个 $\large W^{Q},W^{K},W^{V}$ ）

6. 矩阵计算

7.使用位置编码，表示序列的顺序

transformer为每一个词向量都分配了一个位置向量，位置向量有这固定的生成方式，我们将位置向量添加到词向量中，这样就可以添加词的位置信息了。

8.layer normalization

目的：防止梯度消失，使得数据分布更加合理。

...

9.Decoder部分

将encoder部分输出矢量组成的列表，转换成一组attention集合 (K,V), 将其带入Decoder部分的“encoder-decoder attention”层进行计算

上面的过程已经是推理过程了，训练阶段是怎么做的？

The Final Linear and Softmax Layer

参考： https://blog.csdn.net/qq_41664845/article/details/84969266

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。