几篇较新的计算机视觉Self-Attention

最新推荐文章于 2024-09-11 15:39:33 发布

看不见我呀

最新推荐文章于 2024-09-11 15:39:33 发布

阅读量1.1k

点赞数

分类专栏：基础知识论文阅读

47 篇文章 2 订阅

订阅专栏

18 篇文章 0 订阅

订阅专栏

作者：Fisher Yu
链接：https://zhuanlan.zhihu.com/p/44031466
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

Attention注意力，起源于Human visual system（HVS），个人定义的话，应该类似于外界给一个刺激Stimuli，然后HVS会第一时间产生对应的 saliency map，注意力对应的应该就是这个显著性区域。

这其中就涉及很多 bottom-up 及 top-down 的 physiological 原理~

-------------------------------

总的来说，就是 区域权值学习 问题：

2. Soft-attention，[0,1]间连续分布问题，每个区域被关注的程度高低，用0~1的score表示

Self-attention自注意力，就是 feature map 间的自主学习，分配权重（可以是 spatial，可以是 temporal，也可以是 channel间）

FAIR的杰作，主要 inspired by 传统方法用non-local similarity来做图像 denoise

主要思想也很简单，CNN中的 convolution单元每次只关注邻域 kernel size 的区域，就算后期感受野越来越大，终究还是局部区域的运算，这样就忽略了全局其他片区（比如很远的像素）对当前区域的贡献。

所以 non-local blocks 要做的是，捕获这种 long-range 关系：对于2D图像，就是图像中任何像素对当前像素的关系权值；对于3D视频，就是所有帧中的所有像素，对当前帧的像素的关系权值。

网络框架图也是简单粗暴：

Non-local block

文中有谈及多种实现方式，在这里简单说说在DL框架中最好实现的 Matmul 方式：

首先对输入的 feature map X 进行线性映射（说白了就是 1*1*1 卷积，来压缩通道数），然后得到 $\theta，\phi，g$ 特征
通过reshape操作，强行合并上述的三个特征除通道数外的维度，然后对 $\theta和\phi$ 进行矩阵点乘操作，得到类似协方差矩阵的东西（这个过程很重要，计算出特征中的自相关性，即得到每帧中每个像素对其他所有帧所有像素的关系）
然后对自相关特征以列or以行（具体看矩阵的形式而定）进行 Softmax 操作，得到0~1的weights，这里就是我们需要的 Self-attention 系数
最后将 attention系数，对应乘回特征矩阵中，然后再上扩 channel 数，与原输入 feature map X 残差一下，完整的 bottleneck