各式各样神奇的注意力机制变型

最新推荐文章于 2024-07-11 03:29:05 发布

hebastast

最新推荐文章于 2024-07-11 03:29:05 发布

阅读量440

点赞数 8

分类专栏：深度学习文章标签：人工智能自动驾驶

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/HE19930303/article/details/139996613

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

当输入sequence N很大的时候，这个时候self-attention 占据了绝大部分算力

Local Attention / Truncated Attention

只需要关注附近的attention, local attention 和cnn 差不多，可以加速计算，但效果不一定好

Stride attention

空几格attention ，需要根据问题本身来定义

Global Attention

一种是在原来的token 里面选几个作为special token

另外一种是，额外再做几个token ,其他所有的token 都要和这几个token 做attention

不同的head 做不同的attention

能不能不要用人去规定哪个地方算attention ，哪些地方不算attention

大的attention 算，小的attention 的值不算

先做clustering 分类

Query 和key 进行分类

同一个clustering 里面计算attention，不同的clustering 不计算attention

能不能把要不要计算attention 能不能用learn的方法计算出来

但是我们真的需要一个N*N的attention matrix 吗？

不需要一个N*N的matrix 很多的信息是重复的，我们可以拿掉重复的信息，只保留不重复的信息

N个key不需要全部用，只需要选几个比较具有代表性的key

为什么只选有代表性的key ，没有选择有代表性的query ??

会导致Output sequence 的长度减少，长度的减少会对不同的任务有不同的影响。

怎么选出有代表性的key呢

用cnn 处理
用矩阵相乘的形式处理

整个attention的过程用matrix 的形式表示：

通过改变矩阵的运算的顺序来降低计算的耗时

第一种方法的计算复杂度

第二种方法的计算复杂度

只要改变矩阵相乘的顺序

放回soft max 是怎样：

关注

8
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
各式各样神奇的注意力机制变型

只需要关注附近的attention, local attention 和cnn 差不多，可以加速计算，但效果不一定好。同一个clustering 里面计算attention，不同的clustering 不计算attention。不需要一个N*N的matrix 很多的信息是重复的，我们可以拿掉重复的信息，只保留不重复的信息。会导致Output sequence 的长度减少，长度的减少会对不同的任务有不同的影响。大的attention 算，小的attention 的值不算。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

hebastast 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。