计算机视觉中的注意力机制综述

最新推荐文章于 2022-09-28 09:31:06 发布

ru-willow

最新推荐文章于 2022-09-28 09:31:06 发布

阅读量1.1k

点赞数 2

分类专栏：计算机视觉文章标签：深度学习 pytorch 神经网络机器学习

本文链接：https://blog.csdn.net/qq_39630875/article/details/109336353

版权

计算机视觉专栏收录该内容

15 篇文章 0 订阅

订阅专栏

计算机视觉中的注意力机制

1、SENet (2017 CVPR)

论文名称：Squeeze-and-Excitation Networks
论文连接：https://arxiv.org/abs/1709.01507
代码地址：https://github.com/hujie-frank/SENet
在这里插入图片描述

2、SKNet (2019 CVPR)

论文名称：Selective Kernel Networks
论文连接：https://arxiv.org/pdf/1903.06586.pdf
代码地址：https://github.com/implus/SKNet
在这里插入图片描述

3、CBAM (2018 ECCV)

论文名称：CBAM:Convolutional Block Attention Module
论文连接：https://arxiv.org/pdf/1807.06521.pdf
代码地址：https://github.com/Jongchan/attention-module
Convolutional Block Attention Module (CBAM) 表示卷积模块的注意力机制模块。是一种结合了空间（spatial）和通道（channel）的注意力机制模块。相比于senet只关注通道（channel）的注意力机制可以取得更好的效果。
在这里插入图片描述
Channel attention module:

Spatial attention module:

4、DANet (2019 CVPR)

论文名称：Dual Attention Network for Scene Segmentation
论文连接：https://arxiv.org/pdf/1809.02983.pdf
代码地址：https://github.com/junfu1115/DANet/

在这里插入图片描述
Postion Attention Module：
B、C、D由A卷积得到，维度均为C* H* W。将B、C、D都reshape到C* N(N = H* W)，然后将C的转置于B相乘到N* N的矩阵，对于矩阵的每一个点进行softmax。然后将D与softmax后的结果相乘并reshape到C* H* W，与A进行element-wise。
在这里插入图片描述
Channel Attention Module：
在通道注意力机制中，B(C* N)与C(N* C)的转置相乘得到C* C的矩阵，然后针对C* C的矩阵进行softmax操作，得到C* C的掩膜。将输入A reshape 为C* N，然后将其转至为N* C，最后将掩膜与其相乘得到C* N的输出，再将其 reshape 为C* H* W，接着与输出相加得到C* H* W的E。
在这里插入图片描述