cv基础算法08-ResNext

东阳的学习记录,坚持就是胜利!

研究背景及意义

研究背景

  1. VGG:堆叠相同block,结构简单
  2. ResNet:Residual Connetion
  3. Inception系列:多分支结构,split-transform-merge思想
  4. ImageNet挑战赛

研究意义

  1. 总结提出了split-transform-merge思想,对卷积神经网络的设计起到重要作用
  2. 提炼block堆叠思想,并引入了cardinality指标,为CNN模型设计提供新思路

摘要

  1. 全文概括: 本文提出一个简洁且高度可调节的神经网络结构, 该网络通过反复堆叠Building Block实现,
    Building Block则通过聚集简洁的卷积模块来实现。
  2. 本文优点: 该网络具有相同的, 多分支的结构, 并且对应的超参数非常少
  3. 本文方法: 本文提出一个与网络宽度和深度类似作用的参数, 用来衡量网络大小, 称之为Cardinality
    ( 基数) ——the size of the set of transformations
  4. 本文结论: ImageNet-1K数据集上, 不增加模型复杂度, 增加Cardinality可以提高网络性能, 同时发现增加cardinality比增加网络深度和宽度可以更好的提升网络模型的性能
  5. 本文成果: ILSVRC-2016 分类亚军, 并在Imagenet-5K和COCO数据集上超越ResNet

聚合变换

splitting:X分解为D个元素,可理解为低维嵌入
Transforming:每个元素进行变换,此处仅做乘法
Aggregating:对D个变换后的结果进行聚合(求和)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
如上图,可以看到聚合变换的思想与神经元的操作有异曲同工之妙。

STM的方法,就是将输入的特征图分为C组,每组内部进行正常卷积,然后按通道拼接,得到输出特征图从这种方式,可以看出来,分组卷积具有着多卷积核所不具备的多样性,同时因为是按通道拼接,所以各通道间的信息不互通,不利于做特征提取,因此用1*1卷积整合信息或者使用shuffle???不太懂这个shuffle
在这里插入图片描述

在这里插入图片描述
Conv:CKK*N = 12 * 3 * 3 * 6 = 432
Group conv:C / G * K * K * N = 12 / 3 * 3 * 3 * 6 = 144
分组卷积参数量减少至 1/G(可以减轻过拟合,但是因为现在的硬件设备对分组卷积的支持比较差,所以训练时间很长

分组卷积可以学到不同的特征

从AlexNet两组卷积核学习到两种不同的特征,一组学习到纹理,一组学习到色彩。
在这里插入图片描述

ResNext的网络结构

整体结构与ResNet一致,即:
划分为6个stage

  1. 头部迅速降低分辨率
  2. 4阶段残差结构堆叠
  3. 池化+FC层输出

唯一不同:Building Block
特点:加入分组卷积,节省了参数量,因此可用更多卷积核
在这里插入图片描述

实验结果及分析

实验1:研究cardinality与bottleneck width之间权衡关系

结论:

  • 4种方案中,32*4d精度最高
  • 精度随cardinality增加而提高
    在这里插入图片描述
    在这里插入图片描述

实验2:对比加宽、 加深和加大cardinality

结论:

  • 加大C比加深、 加宽带来更大的提升
  • 加深: 22-21.7 = 0.3, 加宽22-21.3 = 0.7
  • 加大C: 21.2-20.4=0.8
    在这里插入图片描述

实验3:各模型的横向对比

结论:

  • 全面超越ResNet,加宽ResNet
  • 全面超越Inception系列
    在这里插入图片描述

实验4:ImageNet-5K数据集

ImageNet-1K的实验中发现,ResNext有很强的表征能力,并且在ImageNet-1K数据集上未发挥出ResNext的性能(其比Resext有更高的方差(overfitting)),因此考虑更大数据集上训练
在这里插入图片描述
在这里插入图片描述
由图表可看出:
数据足够时, ResNeXt比ResNet有更强的学习能力

实验5:CIFAR数据集

在这里插入图片描述

结论:ResNext全面超越ResNet

思考与展望

  1. 视觉任务研究方向从传统的“特征工程”转向“网络工程”,从另一方面来说,未来时不是可以考虑将特征工程与网络公车该更好地结合起来

  2. 相同架构的block进行堆叠,可以减少过度适应的风险,侧面反映出Inception系列模型的泛化能力可能比较差;

  3. Resnext并不是模型集成

  4. VGG与Resext都有的优秀的可借鉴学习的两个网络设计准则:

    1. 处理尺寸相同的特征图时,采用同样大小、数量的卷积核
    2. 当特征图分辨率长宽降低两倍时,特征图通道数(卷积核数量)翻倍
  5. ResNext中没有针对模块进行特别设计,各分支是同构的,相同的结构便于调试,同时不至于过适应具体任务

  6. 参数少训练速度不一定快,要看硬件对OP(operations)的支持情况。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东阳z

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值