Pytorch深度学习 - Transformer模型

Transformer Overview 

不同于seq2seq/RNN这种静态的编码,Transformer的self-attention机制考虑到了句子中词与词之间的语义联系,例如英文中的代词,在不同句子中指代的含义不同。后续谷歌推出的BERT(Bidirectional Encoder Representation for Transformer)模型更是刷新了NLP领域多项任务的记录,具体任务为应用Transformer的结构进行类似完形填空的预测。

Transformer由encoder和decoder构成,只要分别弄清encoder、decoder 以及二者如何相连,就可以完全理解Transform的self-attention机制。

 

 Encoder

Encoder由两部分组成,Feed Forward相当于一个全连接层,重点在Self-Attention机制上。

输入(word) 先通过word embedding转化成词向量,再输入进self-attention里。

Self-attention

q,k,v向量表示

对于每个单词,创建一个查询向量、一个键向量和一个值向量,通过将词向量分别乘以三个训练的参数矩阵(右面的三个W矩阵)来创造这些向量。

如何计算self-attention?

通过将该词的query向量与其他单词的key向量相乘来计算分数,分数越高,说明语义关系越紧密。通常score需要再除以\sqrt{d_{k}}来缩小,避免后续经过softmax出现梯度消失,最后经过softmax将分数转化成概率(0,1)。所得到的各个词的概率值将作为权重与value向量相乘相加,用于表示该词与其他词的联合语义信息。

Multi-head多头机制

对于一个词向量,有多组W矩阵来计算q,k,v向量以及后续的联合向量,每组矩阵称为一个attention head,通过不同向量所处的空间来提高每个词的表征能力。

 假设有8个attention head,将得到的8个z向量进行拼接,乘以一个权重矩阵后转换成一个z向量。

位置编码 (可有可无)

在输入进encoder之前可以加位置编码

公式如下,不再详述

Encoder整体结构

 将以上的模块组合起来,Add & Normalize使用了Resnet的残差结构,保证随着训练层数增加,效果至少不比原来差。再结合残差结构,将上一层的输入和经过全连接后的输出相加。

 Decoder

decoder相对于encoder多了一层Encoder-Decoder Attention。顶部编码器的输出转换为注意力向量K和V的集合。由于每个单词预测出来有先后顺序,decoder的输入是上一次预测的output。这里的self-attention使用掩码机制,仅允许每个单词与其前面的单词进行score的计算,其后面的单词不考虑。经过encoder得到的多组k、v,与经过self-attention处理过后decoder输入的q做attention的计算。

公式总结 

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值