东阳的学习记录,坚持就是胜利!
文章目录
研究背景及意义
研究背景
- VGG:堆叠相同block,结构简单
- ResNet:Residual Connetion
- Inception系列:多分支结构,split-transform-merge思想
- ImageNet挑战赛
研究意义
- 总结提出了split-transform-merge思想,对卷积神经网络的设计起到重要作用
- 提炼block堆叠思想,并引入了cardinality指标,为CNN模型设计提供新思路
摘要
- 全文概括: 本文提出一个简洁且高度可调节的神经网络结构, 该网络通过反复堆叠Building Block实现,
Building Block则通过聚集简洁的卷积模块来实现。 - 本文优点: 该网络具有相同的, 多分支的结构, 并且对应的超参数非常少
- 本文方法: 本文提出一个与网络宽度和深度类似作用的参数, 用来衡量网络大小, 称之为
Cardinality
( 基数) ——the size of the set of transformations - 本文结论: ImageNet-1K数据集上,
不增加模型复杂度
, 增加Cardinality可以提高网络性能, 同时发现增加cardinality比增加网络深度和宽度可以更好的提升网络模型的性能
- 本文成果: ILSVRC-2016 分类亚军, 并在Imagenet-5K和COCO数据集上超越ResNet
聚合变换
splitting:X分解为D个元素,可理解为低维嵌入
Transforming:每个元素进行变换,此处仅做乘法
Aggregating:对D个变换后的结果进行聚合(求和)
如上图,可以看到聚合变换的思想与神经元的操作有异曲同工之妙。
STM的方法,就是将输入的特征图分为C组
,每组内部进行正常卷积,然后按通道拼接
,得到输出特征图从这种方式,可以看出来,分组卷积具有着多卷积核所不具备的多样性,同时因为是按通道拼接,所以各通道间的信息不互通,不利于做特征提取,因此用1*1卷积整合信息或者使用shuffle???不太懂这个shuffle
。
Conv:CKK*N = 12 * 3 * 3 * 6 = 432
Group conv:C / G * K * K * N = 12 / 3 * 3 * 3 * 6 = 144
分组卷积参数量减少至 1/G(可以减轻过拟合,但是因为现在的硬件设备对分组卷积的支持比较差,所以训练时间很长
)
分组卷积可以学到不同的特征
从AlexNet两组卷积核学习到两种不同的特征,一组学习到纹理,一组学习到色彩。
ResNext的网络结构
整体结构与ResNet一致,即:
划分为6个stage
- 头部迅速降低分辨率
- 4阶段残差结构堆叠
- 池化+FC层输出
唯一不同:Building Block
特点:加入分组卷积,节省了参数量,因此可用更多卷积核
实验结果及分析
实验1:研究cardinality与bottleneck width之间权衡关系
结论:
- 4种方案中,32*4d精度最高
- 精度随cardinality增加而提高
实验2:对比加宽、 加深和加大cardinality
结论:
加大C比加深、 加宽带来更大的提升
- 加深: 22-21.7 = 0.3, 加宽22-21.3 = 0.7
- 加大C: 21.2-20.4=0.8
实验3:各模型的横向对比
结论:
- 全面超越ResNet,加宽ResNet
- 全面超越Inception系列
实验4:ImageNet-5K数据集
ImageNet-1K的实验中发现,ResNext有很强的表征能力,并且在ImageNet-1K数据集上未发挥出ResNext的性能(其比Resext有更高的方差(overfitting)
),因此考虑更大数据集上训练
由图表可看出:
数据足够时
, ResNeXt比ResNet有更强的学习能力
实验5:CIFAR数据集
结论:ResNext全面超越ResNet
思考与展望
-
视觉任务研究方向从传统的“特征工程”转向“
网络工程
”,从另一方面来说,未来时不是可以考虑将特征工程与网络公车该更好地结合起来
; -
相同架构的block进行堆叠,可以减少过度适应的风险,侧面反映出Inception系列模型的泛化能力可能比较差;
-
Resnext并不是模型集成
-
VGG与Resext都有的优秀的可借鉴学习的两个网络设计准则:
- 处理尺寸相同的特征图时,采用同样大小、数量的卷积核
- 当特征图分辨率长宽降低两倍时,特征图通道数(卷积核数量)翻倍
-
ResNext中没有针对模块进行特别设计,各分支是同构的,相同的结构便于调试,同时不至于过适应具体任务
-
参数少训练速度不一定快
,要看硬件对OP(operations)的支持情况。