EPSANet中的高效金字塔挤压注意力机制(PSA)详解-CSDN博客

本文链接：https://blog.csdn.net/qq_18943707/article/details/147504047

EPSANet中的高效金字塔挤压注意力机制(PSA)详解

引言

在计算机视觉领域，注意力机制已成为提升卷积神经网络性能的关键技术。今天我们要解析的是EPSANet论文中提出的**金字塔挤压注意力(Pyramid Squeeze Attention, PSA)**模块，这是一种高效且强大的注意力机制，能够显著提升模型性能而不增加过多计算负担。

PSA模块的核心思想

PSA模块通过四个关键步骤实现了高效的特征重标定：

空间金字塔卷积(SPC)：使用不同尺度的卷积核捕获多尺度特征
通道挤压激励(SE)：对每个金字塔分支应用SE模块计算注意力权重
Softmax归一化：跨分支归一化注意力权重
特征重加权(SPA)：将注意力权重应用于各分支特征

代码实现解析

1. 初始化部分

class PSA(nn.Module):
    def __init__(self, channel=512, reduction=4, S=4):
        super().__init__()
        self.S = S
        
        # 创建S个不同尺度的卷积核
        self.convs = []
        for i in range(S):
            self.convs.append(nn.Conv2d(channel//S, channel//S, 
                                      kernel_size=2*(i+1)+1, 
                                      padding=i+1))
        
        # 为每个分支创建SE模块
        self.se_blocks = []
        for i in range(S):
            self.se_blocks.append(nn.Sequential(
                nn.AdaptiveAvgPool2d(1),
                nn.Conv2d(channel//S, channel//(S*reduction), kernel_size=1, bias=False),
                nn.ReLU(inplace=True),
                nn.Conv2d(channel//(S*reduction), channel//S, kernel_size=1, bias=False),
                nn.Sigmoid()
            ))
        
        self.softmax = nn.Softmax(dim=1)

关键参数说明：

channel：输入特征图的通道数
reduction：SE模块中的压缩比率
S：金字塔分支数量

2. 前向传播过程

def forward(self, x):
    b, c, h, w = x.size()
    
    # Step1: 空间金字塔卷积(SPC)
    SPC_out = x.view(b, self.S, c//self.S, h, w)  # [b,S,c/S,h,w]
    for idx, conv in enumerate(self.convs):
        SPC_out[:,idx,:,:,:] = conv(SPC_out[:,idx,:,:,:])
    
    # Step2: SE权重计算
    se_out = []
    for idx, se in enumerate(self.se_blocks):
        se_out.append(se(SPC_out[:,idx,:,:,:]))
    SE_out = torch.stack(se_out, dim=1)  # [b,S,c/S,1,1]
    SE_out = SE_out.expand_as(SPC_out)  # [b,S,c/S,h,w]
    
    # Step3: Softmax归一化
    softmax_out = self.softmax(SE_out)
    
    # Step4: 特征重加权
    PSA_out = SPC_out * softmax_out
    PSA_out = PSA_out.view(b, -1, h, w)  # [b,c,h,w]
    
    return PSA_out

技术亮点

多尺度特征提取：使用不同大小的卷积核(3x3,5x5,7x7等)捕获多尺度上下文信息
轻量级设计：通过分组卷积和通道分割减少计算量
动态特征融合：基于注意力机制自适应融合不同尺度的特征
端到端可训练：整个模块可微分，能够与主网络一起训练

实际应用效果

在ImageNet分类、COCO目标检测等任务上的实验表明：

在ResNet50基础上添加PSA模块，top-1准确率提升1.2-1.8%
计算开销仅增加约3-5%
对小目标检测效果提升尤为明显

使用示例

if __name__ == '__main__':
    input = torch.randn(50, 512, 7, 7)  # [batch, channel, height, width]
    block = PSA(channel=512, reduction=8)
    output = block(input)
    print(output.shape)  # 输出形状与输入相同