ResNeSt: Split-Attention Networks

代码地址:
提供PyTorch和MXNet双版本:https://github.com/zhanghang1989/ResNeSt

动机:
1.由于ResNet模型最初是为图像分类而设计的,它们可能不适合各种下游应用,因为接收场大小有限且缺乏跨通道交互。这意味着提高特定计算机视觉任务的性能需要网络手术来修改ResNet,使其对特定任务更有效。
2.最近的工作通过大规模神经档案结构搜索(NAS)显著提高了图像分类的准确性。尽管这些模型拥有最先进的性能,但它们通常并没有针对一般/商用处理硬件(CPU/GPU)上的训练效率或内存使用进行优化。由于过度的内存消耗,这些模型的一些较大版本甚至不能在GPU上使用适当的每个设备批量大小为2的进行训练。这限制了在其他应用程序中采用nas派生的模型,特别是涉及到密集预测(如分割)的任务。

贡献:
1.我们探索了ResNet 的简单体系结构修改,将功能图拆分注意力纳入各个网络模块中。 更具体地说,我们的每个块都将特征图分为几组(沿通道维数)和更细粒度的子组或分割,其中,每个组的特征表示是通过其分割表示的加权组合确定的( 根据全局上下文信息选择权重)。 我们将结果单元称为Split-Attention块,它保持简单且模块化。 通过堆叠几个Split-Attention块,我们创建了一个类似ResNet的网络,称为ResNeSt(S代表“ split”)。 我们的架构只需要比现有ResNet变体更多的计算,并且很容易被用作其他视觉任务的基础。
2.使用ResNeSt主干的模型能够在多个任务上实现最优性能,即:图像分类、对象检测、实例分割和语义分割。所提出的ResNeSt比所有现有的ResNet变种性能更好,计算效率相同,甚至比通过神经结构搜索生成的最先进的CNN模型取得更好的速度精度权衡。

数据证明:
1.ResNeSt-50 在 ImageNet 上实现了81.13% top-1 准确率。
2.简单地用ResNeSt-50替换ResNet-50,可以将MS-COCO上的Faster R-CNN的mAP从39.25%提高到42.33%。
3.简单地用ResNeSt-50替换ResNet-50,可以将ADE20K上的DeeplabV3的mIoU从42.1%提高到45.1%。

结构:
在这里插入图片描述
上图是三个网络的对比,最右侧是提出的ResNeSt,一共是分K个Cardinal Groups,之后每个Cardinal Group又分为r个Split来做Split-Attention, 所以一共相当于是G=K*r个组。

在这里插入图片描述
上图是Split-Attention模块,每一个输入就是一个Split,而且Split-Attention都是在一个Cardinal Group中的所有split中进行,过程同SKNet过程一样,只不过在这里是由2个分支变成了radix个分支。其实现的时候主要使用组卷积来实现这样的结构。

作者在文中给出了训练策略,具体分为以下几步:
Large Mini-batch Distributed Training;Label Smoothing;Auto Augmentation;Mixup Training;Large Crop Size;Regularization

结果:
下表展示了几种网络的对比
在这里插入图片描述
在ImageNet 上进行了图像分类,轻松超越SKNet、SENet、ResNetXt和ResNet,具体性能如下表所示。
在这里插入图片描述
ResNeSt 和其他SoTA的CNN模型进行性能比较(特别是NAS阵营)
在这里插入图片描述

在MS-COCO 目标检测和实例分割任务上的表现性能如下
在这里插入图片描述
在这里插入图片描述
在ADE20K 语义分割任务上的表现性能如下:
在这里插入图片描述
在扩展资料中的实验:
在这里插入图片描述

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: resnest: split-attention networks是一种基于注意力机制的神经网络模型,它可以在处理多个输入时分别关注每个输入的不同部分,从而提高模型的准确性和效率。该模型可以应用于图像分类、目标检测等任务中。 ### 回答2: ResNeSt是一种用于图像分类的卷积神经网络模型,它采用了一种称为Split-Attention的注意力分离机制。 Split-Attention网络是一种通过分离学习空间信息和通道信息来提高分类性能的方法。在ResNeSt中,它被应用于每个基本构建块的设计中。 在传统的ResNet网络中,卷积层的输入是通过单一的注意力机制处理的,该机制将学习空间信息和通道信息作为一个整体进行处理。然而,这种处理方式可能导致空间和通道信息之间的冲突和干扰。 为了解决这个问题,ResNeSt引入了Split-Attention机制。该机制通过将输入特征分成多个部分,并分别对这些部分进行处理,以增强网络对空间和通道信息的理解和表示能力。 具体来说,Split-Attention网络首先将输入特征分成多个部分,每个部分都包含一定数量的通道。对于每个部分,它使用一个1x1卷积层来学习通道信息,以提取每个通道的重要性。然后,它使用一个全局平均池化层来学习空间信息,以捕捉特征图中不同区域的重要性。最后,它利用通道和空间信息之间的关系来生成最终的特征表示。 通过这种注意力分离机制,Split-Attention网络能够更好地提取和组合空间和通道信息,从而提高了图像分类任务的性能。在实验中,ResNeSt在一系列的图像分类数据集上都表现出了优秀的性能,证明了Split-Attention网络的有效性。 ### 回答3: resnest是一种新型的深度神经网络结构,它主要关注解决多任务学习中的注意力分割问题。在传统的深度神经网络中,通常将注意力放在一个任务上,而将其他任务的信息忽略掉。这种方式可能导致模型在多任务学习中的性能下降。resnest通过引入split-attention机制来解决这个问题。 split-attention网络通过将注意力分割并分配给每个任务,实现同时关注多个任务的效果。具体来说,它使用了两个关键组件:group convolution和cross-feature aggregation。 首先,group convolution是指将输入的特征图分成多个组并进行卷积操作。每一个组的特征图代表一个任务的信息。通过这种方式,不同任务的特征图可以在不同的组中进行交互,提高了每个任务的表示能力。 其次,cross-feature aggregation是指对不同任务的特征图进行聚合。它利用每个任务的特征图来生成一个注意力图,然后使用这个注意力图来调整其他任务的特征图表示,以强化它们之间的关联性。 通过这两个组件的协同作用,resnest可以同时考虑多个任务的信息,从而提高多任务学习的性能。与传统的单一注意力机制相比,resnest显著改善了多任务学习的能力,同时也能减少网络参数和计算代价。 总结起来,resnest: split-attention networks通过引入split-attention机制来解决多任务学习中的注意力分割问题,通过group convolution和cross-feature aggregation实现了对多个任务信息的同时关注。这种网络结构在多任务学习中具有潜力,并具有较高的性能和效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值