Transformer论文详解,论文完整翻译(六)

Transformer论文详解,论文完整翻译(六)

第三章 模型结构(三)

3.2.2 多头attention


替代了使用单独的attention函数对模型维度对k,v和q进行操作,我们发现对q,k和v做h次不同的线性操作(映射)更加有效,进行线性操作转换为dk维,dk维和dv维度。这些操作我们进行平行的attention,每一个输出dv维度的输出v。将这些输出拼接再做一次映射,得到最终的value,我们在图中进行了描述。

多头attention使模型加入了在不同位置的不同子空间表示信息。而一个单独的attention头,平均会抑制这种表示。

映射矩阵参数,wq 是,dmodel维度到dk维,wk相同,wv是domodel维度映射到dv维,wo是h个dv维度映射到dmodel维度。

在本文中,我们使用h=8 的平行头,每个头,dk = dv = dmodel/h = 64维度。由于减少了每个头的维度,整个计算开销和单头完全维度attention较为相似。

3.2.3 我们模型中attention的应用

transformer将多头attention用在了三个不同的地方

在‘encoder-decoder attention’层,query来自于先前的decoder层,记忆的key和value来自于encoder的输出。这让decoder中每一个位置都会注意到输出序列的所有位置。这种方法类似于经典的encoder-decoder attention结构中的sequence - to - sequencer模型。

encoder包含self-attention层,在self-attention层中的所有keys,values和querise都来自于相同的地方,也就是上一层encoder的输出。encoder的买个位置可以注意到上一个encoder层的所有位置

相似的,decoder中的self-attention层允许decoder中的每个位置注意到上一层decoder的所有位置。我们需要向左的的信息流入来保持自动回归的特性。我们执行这种内部的缩放点积attention通过mask所有的被认为是非法的连接在输入到softmax之前。

(个人总结,请勿转载)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值