各式各样神奇的注意力机制变型

当输入sequence N很大的时候,这个时候self-attention 占据了绝大部分算力

Local Attention / Truncated Attention

只需要关注附近的attention, local attention 和cnn 差不多,可以加速计算,但效果不一定好

Stride attention

空几格attention ,需要根据问题本身来定义

Global Attention

一种是在原来的token 里面 选几个作为special token

另外一种是,额外再做几个token ,其他所有的token 都要和这几个token 做attention

不同的head 做不同的attention

能不能 不要用人去规定哪个地方算attention , 哪些地方不算attention

大的attention 算,小的attention 的值不算

先做clustering 分类

Query 和key 进行分类

同一个clustering 里面计算attention, 不同的clustering 不计算attention

能不能把要不要计算attention 能不能用learn的方法计算出来

但是我们真的需要一个N*N的attention matrix 吗?

不需要一个N*N的matrix 很多的信息是重复的,我们可以拿掉重复的信息,只保留不重复的信息

N个key不需要全部用,只需要选几个比较具有代表性的key

为什么只选有代表性的key ,没有选择有代表性的query ??

会导致Output sequence 的长度减少, 长度的减少会对 不同的任务有不同的影响。

怎么选出有代表性的key呢

  1. 用cnn 处理

  2. 用矩阵相乘的形式处理

整个attention的过程用matrix 的形式表示:

通过改变矩阵的运算的顺序来降低计算的耗时

第一种方法的计算复杂度

第二种方法的计算复杂度

只要改变矩阵相乘的顺序

放回soft max 是怎样:

  • 8
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

hebastast

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值