注意力机制之《CBAM: Convolutional Block Attention Module》论文阅读

  论文地址:CBAM: Convolutional Block Attention Module
  代码地址:github

1. 简介

  本文提出了一个CBAM注意力机制模块,和SEBlock不同的地方是CBAM多了一个空间注意力模块,通道注意力部分和SEBlock很像只是稍微改进了一下。
在这里插入图片描述

2. 结构

2.1 CBAM结构

在这里插入图片描述

2.1.1 Channel-Wise Attention

  通道注意力部分可以从图中看到基本和SEBlock相同,只是加了一个分支Maxpooling,中间共享一个mlp,最后将两部分的输出相加经过sigmoid。
M c ( F ) = σ ( M L P ( A v g P o o l ( F ) ) + M L P ( M a x P o o l ( F ) ) ) = σ ( W 1 ( W 0 ( F a v g c ) ) + W 1 ( W 0 ( F m a x c ) ) ) M_c(F)=\sigma(MLP(AvgPool(F)) + MLP(MaxPool(F)))=\sigma(W_1(W_0(F_{avg}^c))+W_1(W_0(F^c_{max}))) Mc(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))=σ(W1(W0(Favgc))+W1(W0(Fmaxc)))
  其中 W 0 ∈ R C r ∗ C , W 1 ∈ R C ∗ C r W_0\in R^{\frac{C}{r*C}},W_1\in R^{C*\frac{C}{r}} W0RrCC,W1RCrC表示两层mlp的权重,两个分之共享权重并使用relu激活函数, r r r为中间通道reduction的比例。

2.1.2 Spatial Attention Module

  空间注意力的结构也简单,使用average pooling和max pooling对输入feature map 在通道层面上进行压缩操作,对输入特征分别在通道维度上做了mean和max操作。最后得到了两个二维的 feature,将其按通道维度拼接在一起得到一个通道数为2的feature map,之后使用一个包含单个卷积核层对其进行卷积操作,要保证最后得到的feature在spatial 维度上与输入的feature map一致。
M c ( F ) = σ ( f 7 ∗ 7 ( [ A v g P o o l ( F ) ; M a x P o o l ( F ) ] ) ) = σ ( F 7 ∗ 7 ( [ F a v g s ; F m a x s ] ) ) M_c(F)=\sigma(f^{7*7}([AvgPool(F);MaxPool(F)]))=\sigma(F^{7*7([F^s_{avg};F_{max}^s])}) Mc(F)=σ(f77([AvgPool(F);MaxPool(F)]))=σ(F77([Favgs;Fmaxs]))
  可视化:
σ \sigma σ表示sigmoid函数, f 7 ∗ 7 f^{7*7} f77表示 7 ∗ 7 7*7 77卷积核, F a v g s ∈ R 1 ∗ H ∗ W F_{avg}^s \in R^{1*H*W} FavgsR1HW F m a x s ∈ R 1 ∗ H ∗ W F_{max}^s \in R^{1*H*W} FmaxsR1HW表示经过通道维度上的maxpooling和avgpooling操作的结果。

2.2 代码实现

class ChannelAttention(nn.Module):
    def __init__(self, in_planes, ratio=16):
        super(ChannelAttention, self).__init__()
        self.avg_pool = nn.AdaptiveAvgPool2d(1)
        self.max_pool = nn.AdaptiveMaxPool2d(1)

        self.fc1   = nn.Conv2d(in_planes, in_planes // ratio, 1, bias=False)
        self.relu1 = nn.ReLU()
        self.fc2   = nn.Conv2d(in_planes // ratio, in_planes, 1, bias=False)

        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        avg_out = self.fc2(self.relu1(self.fc1(self.avg_pool(x))))
        max_out = self.fc2(self.relu1(self.fc1(self.max_pool(x))))
        out = avg_out + max_out
        return self.sigmoid(out)

class SpatialAttention(nn.Module):
    def __init__(self, kernel_size=7):
        super(SpatialAttention, self).__init__()

        assert kernel_size in (3, 7), 'kernel size must be 3 or 7'
        padding = 3 if kernel_size == 7 else 1

        self.conv1 = nn.Conv2d(2, 1, kernel_size, padding=padding, bias=False)
        self.sigmoid = nn.Sigmoid()

    def forward(self, x):
        avg_out = torch.mean(x, dim=1, keepdim=True)
        max_out, _ = torch.max(x, dim=1, keepdim=True)
        x = torch.cat([avg_out, max_out], dim=1)
        x = self.conv1(x)
        return self.sigmoid(x)

3. 实验结果

3.1 实验设置

  数据:
  MSCOCO和VOC 2007 目标检测任务

  • 学习率0.1,没30个epoch更新一次
  • 使用数据增强
  • 图像剪切到224*224

  通道注意力模块使用不同的pooling组合结果
在这里插入图片描述
  空间注意力模块使用不同的kernel和通道上的pooling操作
在这里插入图片描述
  channel和spatial不同组合方式对比:
在这里插入图片描述
  ImageNet上不同网络的表现
在这里插入图片描述
  轻量化网络对比:
在这里插入图片描述

  可视化:
在这里插入图片描述

MCOC和VOC 目标检测对比:
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值