Transformer论文详解，论文完整翻译（六）

最新推荐文章于 2024-04-02 00:09:08 发布

ws_nlp_

最新推荐文章于 2024-04-02 00:09:08 发布

阅读量630

点赞数

分类专栏： # nlp：论文文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33624866/article/details/106623440

版权

nlp：论文专栏收录该内容

17 篇文章 3 订阅

订阅专栏

Transformer论文详解，论文完整翻译（六）

第三章模型结构（三）

3.2.2 多头attention

替代了使用单独的attention函数对模型维度对k，v和q进行操作，我们发现对q，k和v做h次不同的线性操作（映射）更加有效，进行线性操作转换为dk维，dk维和dv维度。这些操作我们进行平行的attention，每一个输出dv维度的输出v。将这些输出拼接再做一次映射，得到最终的value，我们在图中进行了描述。

多头attention使模型加入了在不同位置的不同子空间表示信息。而一个单独的attention头，平均会抑制这种表示。

映射矩阵参数，wq 是，dmodel维度到dk维，wk相同，wv是domodel维度映射到dv维，wo是h个dv维度映射到dmodel维度。

在本文中，我们使用h=8 的平行头，每个头，dk = dv = dmodel/h = 64维度。由于减少了每个头的维度，整个计算开销和单头完全维度attention较为相似。

3.2.3 我们模型中attention的应用

transformer将多头attention用在了三个不同的地方

在‘encoder-decoder attention’层，query来自于先前的decoder层，记忆的key和value来自于encoder的输出。这让decoder中每一个位置都会注意到输出序列的所有位置。这种方法类似于经典的encoder-decoder attention结构中的sequence - to - sequencer模型。

encoder包含self-attention层，在self-attention层中的所有keys，values和querise都来自于相同的地方，也就是上一层encoder的输出。encoder的买个位置可以注意到上一个encoder层的所有位置

相似的，decoder中的self-attention层允许decoder中的每个位置注意到上一层decoder的所有位置。我们需要向左的的信息流入来保持自动回归的特性。我们执行这种内部的缩放点积attention通过mask所有的被认为是非法的连接在输入到softmax之前。

（个人总结，请勿转载）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer论文详解，论文完整翻译（六）

Transformer论文详解，论文完整翻译（六）第三章模型结构（三）3.2.2 多头attention替代了使用单独的attention函数对模型维度对k，v和q进行操作，我们发现对q，k和v做h次不同的线性操作（映射）更加有效，进行线性操作转换为dk维，dk维和dv维度。这些操作我们进行平行的attention，每一个输出dv维度的输出v。将这些输出拼接再做一次映射，得到最终的value，我们在图中进行了描述。（未完待续）（个人总结，请勿转载）...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。