原文地址
注意力机制的核心重点是让网络关注到它更需要关注的地方
当我们使用卷积神经网络去处理图片的时候,我们更希望卷积神经网络去注意应该注意的地方,而不是什么都关注,我们不可能动手去调节需要注意的地方。这个时候,如何让卷积神经网络去自适应的注意重要的物体变得极为重要
注意力机制就是实现网络自适应注意的一个方式
一般而言,注意力机制可以分为通道注意力机制,空间注意力机制,以及二者的结合
1.SENet的实现
其重点是获得输入进来的特征层,每一个通道的权值。
具体实现方法是:
1.对于输入进来的特征层进行全局平均池化
2.然后进行两次全连接,第一次全连接神经元个数较少,第二次全连接神经元个数和输入特征层相同
3.在完成两次全连接后,我们再取一次Sigmoid将值固定再0-1之间,此时我们获得了输入特征层每一个特征层每一个通道的权值(0-1之间)
4.在获得这个权值后,我们将这个权值乘上原输入特征层即可
实现代码
import torch
from torch import nn
class senet(nn.Module):
#因为要考虑输入进来的通道数,所以要传入,还要传入一个ratio,代表缩放的比例,第一次连接的比例少
def __init__(self, channel, ratio=16):
super(senet, self).__init__() # 初始化的一个过程
# 在高宽上进行平均池化,在完成平均池化后高宽是1了,所以自适应平均池化的参数设为1
self.avg_pool = nn.AdaptiveAvgPool2d(1)
# 定义两次全连接
self.fc = nn.Sequential(
# 定义一个神经元个数较少的全连接
nn.Linear(channel, channel//ratio, False), #不使用偏置量,设为False
nn.ReLU(), #激活函数
nn.Linear(channel // ratio, channel,False),
nn.Sigmoid(),
)
def forward(self,x):
# 特征层的size,第一维度是batchsize,第二维度是通道数,第三维度是高,第四维度是宽
b, c, h, w = x.size()
# b, c, h, w -> b, c, 1, 1(平均池化后的形状是这样的,我们要去掉后两个维度,所以要reshape一下,用view)
avg = self.avg_pool(x).view([b, c])
#全连接层后,把它的宽高维度添加上去,再reshape下
# b, c -> b, c//ratio ->b,c -> b, c, 1, 1
fc = self.fc(avg).view([b, c, 1, 1])
# 输出每个通道的权值
print(fc)
#之后将两次全连接后的结果乘上输入进来的特征层
return x * fc
# 输入通道数是512
model = senet(512)
print(model)
#随便定义一个输入看看
inputs = torch.ones([2, 512, 26, 26])
outputs = model(inputs)
2.CBAM的实现
CBAM将通道注意力机制和空间注意力机制进行另一个结合,CBMA会对输入进来的特征层分别进行通道注意力机制的处理和空间注意力机制的处理
下图是通道注意力机制和空间注意力机制的具体实现方式:
图像的上半部分为通道注意力机制,通道注意力机制的实现可以分为两个部分,我们会对输入进来的单个特征层,分别进行全局平均池化和全局最大池化。之后对平均池化和最大池化的结果,利用共享的全连接层进行处理,我们会对处理后的两个结果进行相加,然后取一个sigmoid,此时我们获得了输入特征层每一个通道的权值(0-1之间)。在获得这个权值后,我们将这个权值乘上原输入特征层即可。
图像的下半部分为空间注意力机制,我们会对输入进来的特征层,在每一个特征点的通道上取最大值和平均值。之后将这两个结果进行一个堆叠,利用一次通道数为1的卷积调整通道数,然后取一个sigmoid,此时我们获得了输入特征层每一个特征点的权值(0-1之间)。在获得这个权值后,我们将这个权值乘上原输入特征层即可。
import torch
from torch import nn
class channel_attention(nn.Module):
def __init__(self, channel, ratio = 16):
super(channel_attention, self).__init__()
self.max_pool = nn.AdaptiveMaxPool2d(1)
self.avg_pool = nn.AdaptiveAvgPool2d(1)
#然后定义两次全连接
self.fc = nn.Sequential(
nn.Linear(channel,channel// ratio, False),
nn.ReLU(),
nn.Linear(channel // ratio, channel //ratio,False)
)
# 要相加之后再sigmoid,所以我们这里定义一个sigmoid
self.sigmoid = nn.Sigmoid()
def forwad(self,x):
b, c, h, w = x.size()
max_pool_out = self.max_pool(x).view([b, c])
avg_pool_out = self.avg_pool(x).view([b, c])
# 对这两个池化的结构使用共享的全连接层处理
max_fc_out = self.fc(max_pool_out)
avg_fc_out = self.fc(avg_pool_out)
#然后将这两个结果进行相加
out = max_fc_out + avg_fc_out
out = self.sigmoid(out)
out = self.sigmoid(out).view([b, c, 1, 1])
#将结果乘以输入进来的特征层
return out * x
class spacial_attention(nn.Module):
def __init__(self, kernel_size = 7): #空间注意力机制不需要关注通道数,所以不要传入channel,ratio也不用关注,我们要进行卷积,所以要关注卷积核大小
super(spacial_attention, self).__init__()
# 由于输入进来的卷积核大小是7,所以我们这里定义的padding应该为7//2 7整除2
padding = 7 //2
self.conv = nn.Conv2d(2, 1, kernel_size, 1, padding, bias=False ) #输入通道数是2,可以看到两层在,输出通道是1,卷积核大小默认设置为7,我们不需要压缩输入进来特征层的高和宽,所以步长为1
self.sigmoid = nn.Sigmoid()
def forwad(self, x):
b, c, h, w = x.size()
# 我们需要对输入进来的特征层进行通道上进行最大池化和平均池化
max_pool_out,_ = torch.max(x, dim = 1, keepdim=True) #通道在batch_size后面这个维度,要把通道这一维度保留下来,所以keepdim要设置为True
mean_pool_out = torch.mean(x, dim = 1, keepdim=True)
# 然后进行一个堆叠,仍然是在第一维度,通道上进行堆叠
pool_out = torch.cat([max_pool_out, mean_pool_out], dim =1)
# 堆叠后的结果取一个卷积,
out = self.cov(pool_out)
#然后再取一个sigmoid
out = self.sigmoid(out)
# 将结果乘以输入进来的特征层
return out * x
#将空间注意力机制和通道注意力机制进行结合
class Cbam(nn.Module):
def __init__(self, channel, ratio = 16, kernel_size=7):
super(Cbam, self).__init__()
# 先定义通道注意力机制
self.channel_attention = channel_attention(channel, ratio)
self.spacial_attention = spacial_attention(kernel_size)
def forward(self, x):
x = self.channel_attention(x)
x = self.spacial_attention(x)
return x
model = Cbam(512)
print(model)
inputs = torch.ones([2, 512, 26, 26])
outputs = model(inputs)
3.ECAnet模块实现
ECANet是也是通道注意力机制的一种实现形式。ECANet可以看作是SENet的改进版。
ECANet的作者认为SENet对通道注意力机制的预测带来了副作用,捕获所有通道的依赖关系是低效并且是不必要的。
在ECANet的论文中,作者认为卷积具有良好的跨通道信息获取能力。
ECA模块的思想是非常简单的,它去除了原来SE模块中的全连接层,直接在全局平均池化之后的特征上通过一个1D卷积进行学习。
既然使用到了1D卷积,那么1D卷积的卷积核大小的选择就变得非常重要了,了解过卷积原理的同学很快就可以明白,1D卷积的卷积核大小会影响注意力机制每个权重的计算要考虑的通道数量。用更专业的名词就是跨通道交互的覆盖率。
如下图所示,左图是常规的SE模块,右图是ECA模块。ECA模块用1D卷积替换两次全连接。
import torch
from torch import nn
import math
class eca_block(nn.Module):
# 对于eca来说,我们要计算卷积核大小,所以我们要输入通道数,通过通道数计算卷积核的大小
def __init__(self, channel, gamma = 2, b =1):
super(eca_block, self).__init__()
# 卷积核大小计算的公式,根据通道数,自适应计算卷积核的大小
kernel_size = int(abs(math.log(channel, 2)+b / gamma))
kernel_size = kernel_size if kernel_size % 2 else kernel_size +1
# 在卷积前要设置padding的值
padding = kernel_size //2
# 先对输入的内容进行平均池化
self.avg_pool = nn.AdaptiveAvgPool2d(1)
#定义1d卷积
self.conv = nn.Conv1d(1, 1, kernel_size, padding= padding, bias = False)
self.sigmoid = nn.Sigmoid()
def forward(self, x):
b, c, h, w = x.size()
#平均池化的结果reshape一下,调成一个序列的形式
avg = self.avg_pool(x).view([b, 1, c]) #第一个特征batchsize,第二胎个维度代表每个step代表特征长度,第三个维度代表每个时序
out =self.conv(avg)
# 对sigmoid后的结果再进行一个reshape,方便后面的处理
out = self.sigmoid(avg).view([b, c,1,1])
print(out)
return out *x
model = eca_block(512)
print(model)
inputs = torch.ones([2, 512, 26, 26])
putputs = model(inputs)
4.注意力机制的应用
理论上可以把它添加在任何一个特征图上面。不太建议把注意力机制添加到主干特征提取部分
注意力机制是一个即插即用的模块,理论上可以放在任何一个特征层后面,可以放在主干网络,也可以放在加强特征提取网络。
由于放置在主干会导致网络的预训练权重无法使用,本文以YoloV4-tiny为例,将注意力机制应用加强特征提取网络上。
如下图所示,我们在主干网络提取出来的两个有效特征层上增加了注意力机制,同时对上采样后的结果增加了注意力机制。
import torch.cuda
attention_block = [se_block, cbam_block, eca_block]
# ---------------------------------------------------#
# 特征层->最后的输出
# ---------------------------------------------------#
class YoloBody(nn.Module):
# 定义参数量phi代表是否选择使用注意力机制
def __init__(self, anchors_mask, num_classes, phi=0):
super(YoloBody, self).__init__()
self.phi = phi
self.backbone = darknet53_tiny(None)
self.conv_for_P5 = BasicConv(512, 256, 1)
self.yolo_headP5 = yolo_head([512, len(anchors_mask[0]) * (5 + num_classes)], 256)
self.upsample = Upsample(256, 128)
self.yolo_headP4 = yolo_head([256, len(anchors_mask[1]) * (5 + num_classes)], 384)
if 1 <= self.phi and self.phi <= 3: # 当phi属于1到3之间代表使用不同的注意力机制模块
self.feat1_att = attention_block[self.phi - 1](256) #通道数256
self.feat2_att = attention_block[self.phi - 1](512) #通道数512
self.upsample_att = attention_block[self.phi - 1](128)
def forward(self, x):
# ---------------------------------------------------#
# 生成CSPdarknet53_tiny的主干模型
# feat1的shape为26,26,256
# feat2的shape为13,13,512
# ---------------------------------------------------#
feat1, feat2 = self.backbone(x)
if 1 <= self.phi and self.phi <= 3:
feat1 = self.feat1_att(feat1)
feat2 = self.feat2_att(feat2)
# 13,13,512 -> 13,13,256
P5 = self.conv_for_P5(feat2)
# 13,13,256 -> 13,13,512 -> 13,13,255
out0 = self.yolo_headP5(P5)
# 13,13,256 -> 13,13,128 -> 26,26,128
P5_Upsample = self.upsample(P5)
# 26,26,256 + 26,26,128 -> 26,26,384
if 1 <= self.phi and self.phi <= 3:
P5_Upsample = self.upsample_att(P5_Upsample)
P4 = torch.cat([P5_Upsample, feat1], axis=1)
# 26,26,384 -> 26,26,256 -> 26,26,255
out1 = self.yolo_headP4(P4)
return out0, out1
if __name__ == "__main__":
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
"""
"""
[[3, 4, 5], [1, 2, 3]]:这是anchors_mask的参数,它指定了在不同尺度(或者说特征图层级)上使用的锚点(anchors)索引。
YOLO模型会在多个尺度上进行预测,以便能够检测到不同大小的对象。每个尺度会使用一组特定的锚点来预测边界框。
这里[3, 4, 5]和[1, 2, 3]指的是用于两个不同尺度预测的锚点索引集合。
80:这是num_classes的参数,代表模型需要识别的类别数量。在这个例子中,模型被设计成能够识别80种不同的对象。
phi=1:这个参数用于控制是否以及如何使用注意力机制(attention mechanism)。
根据代码中的逻辑,phi的值在1到3之间时,会启用不同类型的注意力机制。每种注意力机制都设计用于增强模型对于特定特征的关注能力,从而可能提高模型的性能。
phi=1意味着选择了一种特定的注意力机制。
"""
"""
m = YoloBody([[3, 4, 5], [1, 2, 3]], 80, phi=1).to(device)
summary(m, input_size=(3, 416, 416))