attention is all your need 之 multihead_attention

最新推荐文章于 2024-06-21 14:43:47 发布

DeepWWJ

最新推荐文章于 2024-06-21 14:43:47 发布

阅读量250

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_21157073/article/details/97887019

版权

多头注意力使得模型能够从不同的子空间获取特征，首先结构如下：

假如Q，K，V对应的都是（2，3，6）的数据块，使用h=2的两头注意力来操作。首先使用3个全连接分别对Q，K，V进行映射得到3个（2，3，6）Tensor，然后每个Tensor的最后一维进行split（2）操作（h=2，两头注意力），将每个Tensor切为两个（3，3），然后在第一维上进行concat操作，这样就得到4个（3，3）Q_，4个（3，3）的K_，4个（3，3）的V_。下图表示对Q进行操作，K和V也同理：

进行split和concat操作后，相当于一个2条数据的batch变成4条数据的batch，进行注意力的计算互不干扰，使用scaled_dot_product_attention进行attention操作，依旧使用公式：

在《Attention is all your need》中h为8，也就是会分为8个子注意力来并行计算。最后在计算完成后将8个子注意力拼接在一块。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
attention is all your need 之 multihead_attention

多头注意力使得模型能够从不同的子空间获取特征，首先结构如下：
复制链接

扫一扫

DeepWWJ CSDN认证博客专家 CSDN认证企业博客

码龄10年

39: 原创

24万+: 周排名

56万+: 总排名

10万+: 访问

: 等级

1285: 积分

68: 粉丝

118: 获赞

47: 评论

567: 收藏

私信

关注

热门文章

分类专栏

最新评论

基于CNN的狗叫，猫叫语音分类
望长安于日下: update_audio包的代码没有提供
小样本中的自监督
DeepWWJ: 对于自监督学习，数据表征需要有足够的冗余信息，比如图像中扣掉或旋转后，我们依然可以通过全局信息补全推理出来，这样自监督才会有一定的效果。所以如果得到的信号数据里有这种类似冗余的东西，可以尝试自监督。
小样本中的自监督
晒网学习: 我有一个高光谱采集的生理信号的数据集，数据集不大。和他相关的大数据集也没有，大佬们说这能不能通过自监督来进行表征学习，提高识别率啊。。
Finding Task-Relevant Features for Few-Shot Learning by Category Traversal
RAO_ZY: 作者发布的代码里面是conv2d
Finding Task-Relevant Features for Few-Shot Learning by Category Traversal
风吹无痕@豪: 你好，请问一下级联器和投影器具体是由哪些模块组成的呢？可以说明一下么？谢谢。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。