由于 卷积核作用的感受野是局部的,须累积经过许多层后才能将整个图像不同部分的区域关联起来。所以在 CVPR 2018 上出现了 SENet,从特征 通道 层面上 统计图像的全局信息。
CBAM全称为 Convolutional Block Attention Module,它是一个卷积注意力机制模块,比SE多了一个空间(spatial)attention,两全其美。CBAM可分为2部分,先是channel attention ,和SE类似,然后是 spatial attention,它融合了2种注意力机制,可添加在任意网络的卷积层后面。CBAM的 channel attention的过程,不难看出它比SE多了一个 global max pooling。其2个池化之后的处理过程和SE一样,都是先降维再升维。spatial attention 过程它是将做完 channel attention 的feature map 作为输入,之后作2个大小为列通道的维度池化,每一次池化得到的 feature map 大小就为 h * w * 1 ,再将两次池化的 feature map 作基于通道的连接变成了大小为 h * w * 2 的 feature map ,再对这个feature map 进行核大小为 7*7 ,卷积核个数为1的卷积操作(通道压缩)再sigmod,最后就是熟悉的矩阵全乘了。
2022CVPR提出的自注意力机制模型。其中基于多层感知器 (MLP) 的标准注意力模块被卷积层取代。然而,在复杂的 3D 场景中学习注意力是很困难的。为了采用跨视角注意力进行多视角融合,我们进一步解耦了 VISTA 中的分类和回归任务,并应用提出的注意力约束来促进注意力机制的学习过程。