各式各样神奇的注意力机制变型
只需要关注附近的attention, local attention 和cnn 差不多,可以加速计算,但效果不一定好。同一个clustering 里面计算attention, 不同的clustering 不计算attention。不需要一个N*N的matrix 很多的信息是重复的,我们可以拿掉重复的信息,只保留不重复的信息。会导致Output sequence 的长度减少, 长度的减少会对 不同的任务有不同的影响。大的attention 算,小的attention 的值不算。
原创
2024-06-26 19:16:21 ·
507 阅读 ·
0 评论