理解ResNeXt

ResNeXt:https://arxiv.org/pdf/1611.05431.pdf

Abstract

We present a simple, highly modularized network architecture for image classification. Our network is constructed by repeating a building block that aggregates a set of transformations with the same topology. Our simple design results in a homogeneous, multi-branch architecture that has only a few hyper-parameters to set. This strategy exposes a new dimension, which we call “cardinality” (the size of the set of transformations), as an essential factor in addition to the dimensions of depth and width. On the ImageNet-1K dataset, we empirically show that even under the restricted condition of maintaining complexity, increasing cardinality is able to improve classification accuracy. Moreover, increasing cardinality is more effective than going deeper or wider when we increase the capacity. Our models, named ResNeXt, are the foundations of our entry to the ILSVRC 2016 classification task in which we secured 2nd place.We further investigate ResNeXt on an ImageNet-5K set and the COCO detection set, also showing better results than its ResNet counterpart.

摘要

我们提出了一种简单,高度模块化的网络架构,用于图像分类。我们的网络是通过重复构建块来构建的,该构建块聚合了具有相同拓扑的一组转换。我们的简单设计产生了一个同构的多分支架构,只需要设置一些超参数。这种策略暴露了一个新的维度,我们将其称为“基数”(转换集的大小),作为深度和宽度维度之外的一个重要因素。在ImageNet-1K数据集上,我们凭经验表明,即使在保持复杂性的限制条件下,增加基数也能够提高分类准确性。此外,当我们增加容量时,增加基数比更深或更宽更有效。我们的模型名为ResNeXt,是我们进入ILSVRC 2016分类任务的基础,我们获得了第二名。我们在ImageNet-5K集和COCO检测集上进一步研究ResNeXt,也显示出比其ResNet对应物更好的结果。

Introduction

In this paper, we present a simple architecture which adopts VGG/ResNets’ strategy of repeating layers, while exploiting the split-transform-merge strategy in an easy, extensible way. A module in our network performs a set of transformations, each on a low-dimensional embedding, whose outputs are aggregated by summation. We pursuit a simple realization of this idea — the transformations to be aggregated are all of the same topology (e.g.,Fig. 1 (right)). This design allows us to extend to any large number of transformations without specialized designs.

简介

在本文中,我们提出了一种简单的体系结构,它采用VGG / ResNets的重复层策略,同时以简单,可扩展的方式利用分裂变换合并策略。 我们网络中的模块执行一组转换,每个转换都在低维嵌入上,其输出通过求和来聚合。 我们追求这个想法的简单实现 - 要聚合的转换都是相同的拓扑(例如,图1(右))。 这种设计允许我们在没有专门设计的情况下扩展到任何大量的转换。
在这里插入图片描述

理解ResNeXt的block

上图中的两个block具有相同的复杂度。左边就是ResNet的一个block,右边是基数为32的ResNeXt一个block。
ResNeXt中的block结构是一个单元重复32次然后再相加的结果。每个单元是一个bottleneck结构:先把输入feature map 通过1x1卷积降维到4通道的特征图,然后经过3x3卷积,输出还是4通道(该部分的降维力度比较大,直接从256d到了4d,而ResNet的一个block是从256d降维到了64d),然后再通过1x1卷积进行升维。这个结构叫做32x4d的结构。其中32是ResNeXt引入的新的自由度,称为cardinality。ResNeXt的名字也源于此,X指的就是 neXt dimension。4d代表的是通过1x1卷积之后直接降维到了4通道的特征图。

理解ResNeXt的block的等价结构

在这里插入图片描述
a是ResNeXt module的原始形式(Fig. 1 (right))
b是GoogLeNet形式的等价型(如下图的b)

在这里插入图片描述
c是group convolution的等价型。

这样的等价型的性能和效果是一样的。

作者:GL3_24
来源:CSDN
著作权归作者所有。转载请联系作者获得授权。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值