SAN：探索Self-attention机制的变种

扭扭小薯条

已于 2024-03-27 21:05:01 修改

阅读量928

点赞数 21

文章标签：计算机视觉 transformer

于 2024-03-27 21:04:29 首次发布

本文链接：https://blog.csdn.net/weixin_43098799/article/details/137078083

版权

[CVPR 2020] Exploring Self-attention for Image Recognition
实验代码： https://github.com/hszhao/SAN
论文地址： https://arxiv.org/pdf/2004.13621.pdf

文章目录

Abstract
一、Introduction
二、Related Work
- 1. Convolutional networks
- 2. Self-attention
三、Self-attention Networks
四、Comparison
五、Experiments
六、Conclusion

Abstract

自注意力机制现在是图像识别模型的基本构建块。本文探索自注意力的变体在图像识别任务中的有效性。论文把自注意力分为两种，一种是成对自注意力（Pairwise Self-attention），另一种是基于图块的自注意力（Patchwise Self-attention）。Pairwise Self-attention是一种集合操作，是一种对标准dot-product注意力机制的泛化。Patchwise Self-attention是比卷积效果更加强大。Pairwise Self-attention和卷积效果相当或者比卷积效果好。Patchwise Self-attention效果超过了卷积神经网络。实验还证明了自注意力机制在鲁棒性和泛化性上更强。

一、Introduction

CNN在视觉领域取得了很好的发展。但是CNN存在很多缺点。比如CNN不存在旋转不变性。参数量也随着kernel size不断增加。聚合的权重也是固定的没法自适应聚合临域信息。后来研究转向了自注意力机制。我们探究了很多transformer的变形。Pairwise Self-attention，泛化了NLP中的标准dot-product自注意力。Pairwise Self-attention首先是集合操作不是序列操作。权重不固定而且footsprint增加的时候甚至不规则的footsprint都不会增加参数。而且对于channel不会进行合并操作。Patchwise Self-attention加入了位置信息，失去了不变性但是对卷积效果更加好。实验证明，自注意力的两种形式都对构建图像识别模型非常有效。在ImageNet上和ResNet进行实验和对比。Flops更小，参数更少并且效果更好。自注意力网络在鲁棒性和泛化性方面可能具有显著的优势。

二、Related Work

1. Convolutional networks

CNN是主流。

2. Self-attention

局部注意力对于限制模型的内存和计算消耗非常重要，有助于在网络中成功应用自注意力。论文中采用的是矢量注意力自适应每个通道，而不是共享的标量权重。

三、Self-attention Networks

CNN中的卷积层有两个作用特征聚合和特征转换。我们主要关注特征聚合部分。
两种方法区别在于 $\alpha$ 的产生。

位置编码： $x_{j}$ 单独处理， $\alpha(x_{i}, x_{j})$ 无法融合除 i 和 j 以外的其他位置信息。

骨干网络（Backbone）：SAN的骨干网络由五个阶段组成，每个阶段具有不同的空间分辨率，使得分辨率降低了32倍。每个阶段由多个自注意力块组成。相邻的阶段之间通过过渡层连接，该层减小了空间分辨率并扩展了通道维度。最后一个阶段的输出经过一个分类层处理，该层包括全局平均池化、线性层和softmax激活函数。

四、Comparison

五、Experiments

Relation function. Mapping function. Transformation functions. Footprint size. Position encoding. Zero-shot generalization to rotated images. Robustness to adversarial attacks.

六、Conclusion

在本文中，我们探索了完全基于自注意力的图像识别模型的有效性。我们考虑了成对和分片两种形式的自注意力。成对形式是一种集合操作，在这个意义上与卷积根本不同。而分片形式则是卷积的一种推广。

扭扭小薯条

关注

21
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
SAN：探索Self-attention机制的变种

自注意力机制现在是图像识别模型的基本构建块。本文探索自注意力的变体在图像识别任务中的有效性。论文把自注意力分为两种，一种是成对自注意力（Pairwise Self-attention），另一种是基于图块的自注意力（Patchwise Self-attention）。Pairwise Self-attention是一种集合操作，是一种对标准dot-product注意力机制的泛化。Patchwise Self-attention是比卷积效果更加强大。
复制链接

扫一扫