SK Attention模块
paper链接:ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks
2.模型结构图:

(a) SE块和(b)有效通道注意力(ECA)模块的比较。给定使用全局平均池(GAP)的聚合特性,SE块使用两个FC层计算权重。与之不同的是,ECA通过执行大小为k的快速一维卷积来生成通道权值,其中k通过通道维C的函数自适应地确定。
3.论文主要内容
作者提出了一种新的注意力机制 ECA,它的核心思想是在通道维度上进行注意力计算,而不是在空间维度上计算。具体来说,ECA 通过将通道维度上的特征进行自适应加权,来增强有用的特征,抑制无用的特征,从而提高网络的表示能力和泛化性能。
相对于其他注意力机制,ECA 具有以下优点:
计算效率高:ECA 的计算量比其他注意力机制低得多,因为它只需要对每个通道进行一个全局平均池化,然后经过一个简单的线性变换即可得到注意力权重。
易于优化:ECA 的注意力计算是一种自然的正则化方式,不需要额外的正则化技巧,也不容易过拟合。
适用性强:ECA 可以轻松应用于各种卷积神经网络中,而不需要进行太多的修改和调整。
实验结果表明,ECA 在多个视觉任务上均取得了非常好的性能,包括图像分类、目标检测和语义分割等。因此,ECA 可以作为一种简单而有效的注意力机制,用于提高深度卷积神经网络的性能。
4.代码案例:
import numpy as np
import torch
from torch import nn
from torch.nn import init
from collections import OrderedDict
class ECAAttention(nn.Module):
def __init__(self, kernel_size=3):
super().__init__()
self.gap=nn.AdaptiveAvgPool2d(1)
self.conv=nn.Conv1d(1,1,kernel_size=kernel_size,padding=(kernel_size-1)//2)
self.sigmoid=nn.Sigmoid()
def init_weights(self):
for m in self.modules():
if isinstance(m, nn.Conv2d):
init.kaiming_normal_(m.weight, mode='fan_out')
if m.bias is not None:
init.constant_(m.bias, 0)
elif isinstance(m, nn.BatchNorm2d):
init.constant_(m.weight, 1)
init.constant_(m.bias, 0)
elif isinstance(m, nn.Linear):
init.normal_(m.weight, std=0.001)
if m.bias is not None:
init.constant_(m.bias, 0)
def forward(self, x):
y=self.gap(x) #bs,c,1,1
y=y.squeeze(-1).permute(0,2,1) #bs,1,c
y=self.conv(y) #bs,1,c
y=self.sigmoid(y) #bs,1,c
y=y.permute(0,2,1).unsqueeze(-1) #bs,c,1,1
return x*y.expand_as(x)
if __name__ == '__main__':
input=torch.randn(50,512,7,7)
eca = ECAAttention(kernel_size=3)
output=eca(input)
print(output.shape)