Transformer

1.直观理解

   Transformer可以当做黑盒,丢进去一个 语言输入,便可以翻译成 相应语言输出。

   

       有两大组成部分,一个是Encoders, 一个是Decoders   (和数学之美中阐述的编码解码,有点类似)

                                              

 

      再进一步,发现Encoders由6个 Encoder组成, Decoders也是由6个部分组成。

                    

 

   对于其中的每个Encoder,它们的结构是类似的,包含一个 self-attention 和 feed forward 层。

            

Self-Attention 帮助 Ecoder在编码单词 的过程中 查看输入序列中的其它单词,每个Dcoder也有类似的结构,中间多了一层Attention(作用还不清楚)

  

 

2.张量在网络中的流动

   首先做文本的词嵌入,将词编码成 512 维的向量,将其作为最底层 Encoder的输入。 每个Encoder中的 Self-Attention的输入是存在关联的, 但是前馈层没有依赖,可以考虑并行计算。

 

3.  Encoding

            

4.Self-Attention 的直观理解

  假设有这句话 “The animal didn't cross the street because it was too tired” 这里 “it” 的指代, 如果将 "tired” 替换成"wide", 这里的 "it" 又是指代的谁,对于计算机来讲,上下文不是特别友好。 Self-Attention的作用就是帮助"it"和“animal”建立连接.

5. Self-Attention 处理的细节

  (1) 将词转换成 向量(512维)

  (2) 将向量 \large x_{i}\large W^q,W^k,W^v 相乘,得到三个向量。 \large q_{i},k_{i},v_{i}

    (3)    将 \large q_{i}\large k_{j} 点积,获得 n 个得分。

  (4) 将得分 除以 \large \sqrt{d_{k}}, 这里为8

  (5) 将第(4)步的结果,进行softmax

  (6)将 \large v_{j} 与 softmax之后的得分,进行相乘

  (7)将相乘之后的 n 个向量 累加,最终的向量作为当前词 在 self-attention 层的输出。

图示:(这里使用了多个 \large W^{Q},W^{K},W^{V}

 

6.  矩阵计算

  

 

7.使用位置编码,表示序列的顺序

 transformer为每一个 词向量都分配了一个位置向量,位置向量有这固定的生成方式,我们将位置向量添加到 词向量中,这样就可以添加词的位置信息了。

8.layer normalization

目的:防止梯度消失,使得数据分布更加合理。

...

 

9.Decoder部分

将encoder部分输出矢量组成的列表,转换成一组attention集合 (K,V), 将其带入Decoder部分的“encoder-decoder attention”层进行计算

 

 

上面的过程已经是推理过程了,训练阶段是怎么做的?

 

The Final Linear and Softmax Layer

 

参考https://blog.csdn.net/qq_41664845/article/details/84969266

  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值