Transformer论文详解，论文完整翻译（五）

最新推荐文章于 2024-07-18 20:23:56 发布

ws_nlp_

最新推荐文章于 2024-07-18 20:23:56 发布

阅读量406

点赞数

分类专栏： # nlp：论文文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_33624866/article/details/106616282

版权

nlp：论文专栏收录该内容

17 篇文章 3 订阅

订阅专栏

Transformer论文详解，论文完整翻译（五）

第三章模型结构（二）

3.2 attention

一个attention函数可以描述为，将query和key-value对做一个映射，然后输出。query，key，value和输出，都是向量。输出的计算方式是，对value进行加权求和，每个value的权重是query与相应key的一致性函数。

3.2.1 缩放的点积 Attention

我们称呼我们特殊的attention方法为“scaled 点积attention”。(我把它称为比例点积attention)。输入包括所有的query，所有dk维度的key，和所有dv维度的value。我们把query与所有的key计算点积，每个再除以dk的开根号结果，然后使用一个softmax函数来获取value的权重。

在实践中，我们同步计算了多个query的attention函数，把他们打包在一起成为矩阵Q。所有的key和value也打包到矩阵K和v中，我们计算矩阵输出如下：
在这里插入图片描述

两个最通用的attention函数是累加attention和点积attention。点积attention除了缩放因子，和我们的算法相同。累加attention计算一致性函数使用了前馈网络和一个单独的隐层。虽然两种方法理论上复杂度相同，但是实际上点积attention更快，空间上更高效，因为它在计算时可以用到高度优化的矩阵乘法代码。

对于较小值的dk（维度），两种结构表现相似，累加attention在较大值上的效果要比没有缩放的点积attention效果好。我们猜测对于较大的dk，点积结果会变得特别大，使得softmax函数的梯度减小。为了抵消这种效果，我们使用（dk的平方根）来缩放点积。

（个人总结，请勿转载）

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Transformer论文详解，论文完整翻译（五）

Transformer论文详解，论文完整翻译（五）第三章模型结构（二）3.2 attention（未完待续）（个人总结，请勿转载）
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。