Exploring Self-attention for Image Recognition
Exploring Self-attention for Image Recognitionarxiv.org一 文章出发点
现在哪哪都用的注意力。
文章认为传统的卷积可分为,特征聚集(空间卷积)+特征变化(通道卷积),实际也就是分通道独立卷积的思想。而且特征聚集中3*3卷积所考虑的空间大小固定,所以作者也提出将传统卷积解耦,然后将特征聚集的本质理解为:局部区域内的像素特征加权求和。所以作者提出利用注意力机制自动生成这个权(空间卷积参数),也就是以前的卷积参数,从而实现了增加所考虑的局部区域大小,而又不增加参数的目标。
二 文章怎么做
文章通篇只有一张图,如下,也就是文章的基本卷积模块
为了便于理解,我这里将它画成了如下形式。图中某些箭头上方的符号都可以简单理解为一个类似1*1卷积层的操作。
所以文章的核心思想在于:考虑一个像素的局部特征聚集时,应该将注意力放在那些对它影响较大的像素上。因此根据当前像素与所考虑的局部区域内(文中称为footprint,大小7*7)各像素的关系(如下图所示点积的相似性啊、一范数等等),经1*1卷积得到该区域内各像素特征的注意力权重(如前所述,此时注意力权重有点类似传统的卷积参数,只是每次卷积参数不同,所以你会发现传统的3*3卷积核参数量没有了,只剩1*1卷积了,因为现在卷积核全是根据自注意力机制而来,所以卷积大小可以扩大很多)。
以上,作者除上述像素对之间的注意力,还提出了像素块与像素之间的注意力,感兴趣自读。