《ResNeSt: Split-Attention Networks》阅读笔记

最新推荐文章于 2022-08-22 16:55:21 发布

6个小石头

最新推荐文章于 2022-08-22 16:55:21 发布

阅读量2.3k

点赞数

分类专栏：阅读论文文章标签：神经网络计算机视觉

本文链接：https://blog.csdn.net/LiuJiuXiaoShiTou/article/details/106012342

版权

ResNeSt是基于ResNet的改进变体，通过Split-Attention块实现了跨通道的注意力分散，提高了图像分类、对象检测、语义分割等任务的性能。Split-Attention块将特征图分为多个组和子组，通过加权组合实现跨组的关注。ResNeSt模型在ImageNet上表现出色，同时在下游任务如MS-COCO和ADE20K上也有显著提升，显示了其通用性与计算效率。

摘要由CSDN通过智能技术生成

一、论文

《ResNeSt: Split-Attention Networks》

二、阅读资料

关于ResNeSt的点滴疑惑

ResNet最强改进版来了！ResNeSt：Split-Attention Networks

【论文笔记】张航和李沐等提出：ResNeSt: Split-Attention Networks（ResNet改进版本）

三、网络对比

1、SE块

简单地说，把特征图经过卷积操作变为1x1xC大小，当做权重乘到每张特征图上，以起到特征增强的目的。

2、SK块

简单地说，经过不同的卷积操作，生成大小相同的特征图，然后进行add合并操作，不改变大小，经过卷积操作生成权重，分别乘到两个特征图中，在合并，整个块不改变通道数和大小。得到更加丰富的特征。当然，其中的Split中卷积操作使用分组卷积效果更好。

3、ResNeXt块

多分支，但使用了组卷积。

4、ResNeSt

右边图：基数组内的注意力分散。为了简化图中的可视化，我们在该图中使用c = C/K。

可能现在看起来，大概是一个SK块只分了两路，且就是多个SK块连接起来就构成的SK-Net，但是ResNeSt中分了K个组，每个组又分了r路，增加了网络的宽度。将输入分为K个，每一个记为Cardinal1-k ，然后又将每个Cardinal拆分成R个，每一个记为Split1-r，所以总共有G=KR个组

四、代码

"""Split-Attention"""

import torch
from torch import nn
import torch.nn.functional as F
from torch.nn import Conv2d, Module, Linear, BatchNorm2d, ReLU
from torch.nn.modules.utils import _pair

__all__ = ['SplAtConv2d']

class SplAtConv2d(Module):
    """Split-Attention Conv2d
    """
    def __init__(self, in_channels, channels, kernel_size, stride=(1, 1), padding=(0, 0),
                 dilation=(1, 1), groups=1, bias=True,
                 radix=2, reduction_factor=4,
                 rectify=False, rectify_avg=False, norm_layer=None,
                 dropblock_prob=0.0, **kwargs):
        super(SplAtConv2d, self).__init__()
        padding = _pair(padding)
        self.rectify = rectify and (padding[0] > 0 or padding[1] > 0)
        self.rectify_avg = rectify_avg
        inter_channels = max(in_channels*radix//reduction_factor, 32)
        self.radix = radix
        self.cardinality = groups
        self.channels = channels
        self.dropblock_prob = dropblock_prob
        if self.rectify:
            from rfconv import RFConv2d
            self.conv = RFConv2d(in_channels, channels*radix, kernel_size, stride, padding, dilation,
                                 groups=groups*radix, bias=bias, average_mode=rectify_avg, **kwargs)
        else:
            self.conv = Conv2d(in_channels, channels*radix, kernel_size, stride, padding, dilation,
                               groups=groups*radix, bias=bias, **kwargs)
        self.use_bn = norm_layer is not None
        if self.use_bn:
            self.bn0 = norm_layer(channels*radix)
        self.relu = ReLU(inplace=True)
        self.fc1 = Conv2d(channels, inter_channels, 1, groups=self.cardinality)