[CVPR 2020] Exploring Self-attention for Image Recognition
实验代码: https://github.com/hszhao/SAN
论文地址: https://arxiv.org/pdf/2004.13621.pdf
文章目录
Abstract
自注意力机制现在是图像识别模型的基本构建块。本文探索自注意力的变体在图像识别任务中的有效性。论文把自注意力分为两种,一种是成对自注意力(Pairwise Self-attention),另一种是基于图块的自注意力(Patchwise Self-attention)。Pairwise Self-attention是一种集合操作,是一种对标准dot-product注意力机制的泛化。Patchwise Self-attention是比卷积效果更加强大。Pairwise Self-attention和卷积效果相当或者比卷积效果好。Patchwise Self-attention效果超过了卷积神经网络。实验还证明了自注意力机制在鲁棒性和泛化性上更强。
一、Introduction
CNN在视觉领域取得了很好的发展。但是CNN存在很多缺点。比如CNN不存在旋转不变性。参数量也随着kernel size不断增加。聚合的权重也是固定的没法自适应聚合临域信息。后来研究转向了自注意力机制。我们探究了很多transformer的变形。Pairwise Self-attention,泛化了NLP中的标准dot-product自注意力。Pairwise Self-attention首先是集合操作不是序列操作。权重不固定而且footsprint增加的时候甚至不规则的footsprint都不会增加参数。而且对于channel不会进行合并操作。Patchwise Self-attention加入了位置信息,失去了不变性但是对卷积效果更加好。实验证明,自注意力的两种形式都对构建图像识别模型非常有效。在ImageNet上和ResNet进行实验和对比。Flops更小,参数更少并且效果更好。自注意力网络在鲁棒性和泛化性方面可能具有显著的优势。
二、Related Work
1. Convolutional networks
CNN是主流。
2. Self-attention
局部注意力对于限制模型的内存和计算消耗非常重要,有助于在网络中成功应用自注意力。论文中采用的是矢量注意力自适应每个通道,而不是共享的标量权重。
三、Self-attention Networks
CNN中的卷积层有两个作用特征聚合和特征转换。我们主要关注特征聚合部分。
两种方法区别在于
α
\alpha
α的产生。
位置编码: x j x_{j} xj单独处理, α ( x i , x j ) \alpha(x_{i}, x_{j}) α(xi,xj)无法融合除 i 和 j 以外的其他位置信息。
骨干网络(Backbone):SAN的骨干网络由五个阶段组成,每个阶段具有不同的空间分辨率,使得分辨率降低了32倍。每个阶段由多个自注意力块组成。相邻的阶段之间通过过渡层连接,该层减小了空间分辨率并扩展了通道维度。最后一个阶段的输出经过一个分类层处理,该层包括全局平均池化、线性层和softmax激活函数。
四、Comparison
五、Experiments
Relation function. Mapping function. Transformation functions. Footprint size. Position encoding. Zero-shot generalization to rotated images. Robustness to adversarial attacks.
六、Conclusion
在本文中,我们探索了完全基于自注意力的图像识别模型的有效性。我们考虑了成对和分片两种形式的自注意力。成对形式是一种集合操作,在这个意义上与卷积根本不同。而分片形式则是卷积的一种推广。