前沿重器[11] | 再谈attention机制

最新推荐文章于 2024-06-09 09:46:10 发布

机智的叉烧

最新推荐文章于 2024-06-09 09:46:10 发布

阅读量146

点赞数

文章标签：人工智能编程语言深度学习大数据 java

本文链接：https://blog.csdn.net/baidu_25854831/article/details/118077842

版权

【前沿重器】

栏目主要给大家分享各种大厂、顶会的论文和分享，从中抽取关键精华的部分和大家分享，和大家一起把握前沿技术。具体介绍：仓颉专项：飞机大炮我都会，利器心法我还有。

往期回顾

attention已经不是我第一次写了额（NLP.TM[26] | bert之我见-attention篇），但是感觉看了一些文章，还是有一些新的理解，所以自己还是想多写一次，一方面自己总结深化，另一方面是和大家分享一下我的理解心得。

em...这段是写完之后回来加的，脑子里想了很多东西但是感觉写的不是很长，不太清楚自己的想法有没有充分表达出来，如果没有，记得多去看看参考文献理解笑话下哈~

attention的理论解释

我们先来看attention一个颇具概括意义的公式之一：

这个公式也很好地解释了很多在初步看Attention的人所不明白的K、Q、V的意思，我也来说一个我的说法：

在这里的attention机制本质上就是一个查字典，给定一个query，要识别他的意思，就是要在库里面查他和库里面谁的意思最接近，库里面的内容就是一个个的Key，它对应的结果就是Value，极端的，他和库里面某个词的意思完全相同，即query和key完全相同，那他就去100%的Value的结果即可，那换个情况，他没有和库里面的key非常接近，只是和部分比较接近，那就是这个相似度归一化后走一个类似“全概率公式”的方法，把这个value做一个加权求和，完事。

这里比较模糊的概念，其实就只有similarity的衡量了。

attention的本质思考

继续回看这个公式：

它的本质其实很简单，就是一个加权求和的机制，而核心问题就在于这个similarity是怎么做的了。网络上比较流行的是这几种：

一般地，还会用一个softmax做一个归一化，让“加权求和”更像“加权求和”，说白了就是避免尺度上出现的问题。而这个所谓的“注意力”的体现，其实就是在这个加权上，我们可以这么理解，权重大的就是“被关注的”位置，权重小的就是“不被关注”的位置，细化之后就是query和source的内部元素之间的重要性分析。

OK，进一步，在transformer里面就有提到了更为直接的方式——self-attention，就更好理解了，就是query和他自己本身的内部元素之间的重要性分析，可视化后就是这样：

这张图其实就能体现出来attention有一定的指代功能，他能体现句子内元素的依赖关系，这也是为什么attention能在机器翻译成长壮大和核心原因，而self-attention本质上就构造或者说挖掘了一种局内的依赖关系和映射关系，而对外，本质上就是一个“term weighting”，即词权重，后续接上对应的weight，还能去做很多下游的工作。

这个角度看，self-attention只要求Q和K相同，对V是否相同好像也没那么重要了？再进一步，Q和K不见得要完全相同，还可能可以是同一个query的不同表征？不知道会不会大胆，但是可以说的是，一定是不需要局限在一些现有框架的东西。

再进一步，这个similarity是否真的要是similarity？能不能是一个对输入的表征，这个表征是通过其他计算出来的，是不是也可以？

attention的研究进展

近期邱锡鹏老师团队发表了一篇对Transformer进行综述的论文，比较全面地对当前地各种transformer的优化进行了总结（变形金刚的各种变形状态？），这些改进的核心目标都集中在两点：复杂性和结构先验问题，改进的思路可以总结为下面6个点，篇幅有限且有很多东西会和其他的文章重复，此处只是列举和简单描述，不再赘述：

稀疏注意力。从两两匹配的二部图弱化为特定规则的注意力比对形式。
线性化注意力。用K和V的外积维护内存矩阵人后对Q进行归一化后相乘。
原型和内存压缩。通过降维等方式转化Q或K再来比对。
低秩注意力。使用低秩的矩阵近似表示注意力矩阵。
先验注意力。通过一些预先得到的分布来补充注意力矩阵。这块自己看的论文比较多，类似lite transformer之类的就是加了个CNN的先验分布。
改进多头机制。多头信息交互、限制注意力范围、对多头信息的精细化聚合等。

这里的总结非常有限，非常推荐大家去看邱锡鹏老师团队的文章，就是要六月份发的，没多久：https://arxiv.org/abs/2106.04554。

比较策略的串讲，只是为了去谈一个事情，就是展开对注意力机制的理解。

多去看看实际输出的注意力分布是什么样的，可以看到研究者们注意到了低秩、稀疏的问题，也发现了可以发现一些先验的结构，如band、block local等是真的非常常见的。
查看transformer真正的性能问题在哪，如何在减少损失的情况下尽可能压缩。
多头注意力的同质化现象如何避免，如何让每个头注意点的多样性提升，而又如何让这种多样性更好地协同？

同时，值得我们思考的是，注意力机制还有很多问题，急需很多更新的结构来优化注意力，甚至是有没有什么方法能替代注意力。

参考文献

张俊林-深度学习中的注意力模型（2017版），https://zhuanlan.zhihu.com/p/37601161
A Survey of Transformers：https://arxiv.org/abs/2106.04554
A Survey of Transformers论文解读：https://zhuanlan.zhihu.com/p/379510627

机智的叉烧

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
前沿重器[11] | 再谈attention机制

【前沿重器】栏目主要给大家分享各种大厂、顶会的论文和分享，从中抽取关键精华的部分和大家分享，和大家一起把握前沿技术。具体介绍：仓颉专项：飞机大炮我都会，利器心法我还有。往期回顾前沿重器[...
复制链接

扫一扫