骨架和分类网络论文杂读

一些backbone的图解传送门

未看或未总结:

[201906-arxiv]Stand-Alone Self-Attention in Vision Models[paper]

Res2Net: A New Multi-scale Backbone Architecture

MobileNetV2

 

[201906-arxiv] Does Object RecognitionWork for Everyone?

探讨了一个严肃的问题,收入对物体识别的影响有多大

[201905-arxiv] EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

传统的改善backbone的思路是分别做深,宽,或者用高分辨率的输入。作者实验发现如果仅仅只用其中一个因子来改善backbone所带来的性能提升很快就饱和

作者认为需要同时改变这三个,并提出了一个经验的公式

[2019-CVPR]MnasNet Platform-Aware Neural Architecture Search for Mobile

利用强化学习搜索网络架构,对作者的Factorized Hierarchical Search Space的创新点不是很理解

[2019-ICLR]Approximating CNNs with Bag-Of-Loca-Features Models Works Surprisingly Well on Imagenet [paper]

看完这个之后更加坚定了以后要多看这类论文的想法。因为这个论文网上宣传得挺多的,所以对它的结论已经不是那么震惊。不过在摘要里看到了这句话 Furthermore, the BagNets behave similar to state-of-the art deep neural networks such as VGG-16, ResNet-152 or DenseNet-169 in terms of feature sensitivity, error distribution and interactions between image parts,我就在想如果自己去做,这个该怎么设计实验去说明,想了挺久也没有答案。

这篇论文的结论就是利用 BAG-OF-LOCAL FEATURES 就可以取得跟Alexnet类似的效果。

局部特征是通过限制网络的感受野得到的,比如把resnet里面大量的3*3卷积换成1成1卷积,那么到了最后一层的feature map,每一个点对应的感受野非常小,然后通过fc去得到最后的结果

下面重点关注他怎么设计实验去说明BagNets在某些方面的表现形式跟主流的骨架网络表现一致的

1 bags of features这样设计本质上已经对特征的空间顺序不再有要求,所以打乱这种顺序应该不影响最终的结果。

One core component of the bag-of-feature networks is the neglect of the spatial relationships between image parts. In other words, scrambling the parts across the image while keeping their counts constant does not change the model decision. Unfortunately, due to the overlapping receptive fields

it is generally not straight-forward to scramble an image in a way that leaves the feature histograms invariant. For VGG-16 an algorithm that comes close to this objective is the popular texture synthesis algorithm based on the Gram features of the hidden layer activations

所以平时无关的论文也要多看看

这个虽然对人的判断影响很大,但是对BagNet和VGG影响比较小

2 Spatially distinct image manipulations do not interact

这个高大上的词汇组起来我竟然没看懂,不过看这幅图会比较清楚一些

发现VGG也呈现类似的效果

The results (Figure 6C) show that VGG-16 exhibits few interactions between image parts spaced by more than 30 pixels. The interactions increase for deeper and more performant architectures.

[2018-arxiv]ShuffleNet V2: Practical Guidelines for efficient CNN Architecture Design

 提出了一些设计轻量级网络的指导意见

标准上不提倡使用FLOPs,因为同样Flops的不同网络在速度上也有明显的差别。

具体原因主要有两种内存读取需要花时间,还有网络可以被并行计算的度,像inception加很多不同的分支的设计并行度就比较低。另外有些平台会对特殊的操作比如3*3的卷积做特殊的优化,所以3*3卷积的速度可能不会比1*1的慢9倍。

G1:Equal channel width minimizes memory access cost(MAC)

假设卷积核是1*1,那么flops数F=hwcico, MAC为两个feature map还有权重,分别为

hw(ci+co)+cico

>=hw*sqrt(2cico)+cico

=sqrt(2Fhw) + F/HW

可知在固定的flops下,MAC能在cico相等时取的最小值,当然现实中内存系统比较复杂,跟理论分析有些差距,比如有可能不足以存储所有的fature map等之类。不过作者做了实际的实验,验证了上面的结论。

G2:Excessive group convolution increases MAC.

在与G1类似的分析手段下,作者得出在同样的Flops下分组越多增加MAC

G3: Network fragmentation reduces degree of parallelism.

这个实验有点违反我的潜意识 ,我之前以为d要比b,e要比c快.

G4) Element-wise operations are non-negligible.

最后作者提出了自己的架构

为了符合G1,在c图中的上部加了一个channel split(默认1/2),并且不像V1版本中右边的分路有bottleneck

为了符合G2,砍了两个 group conv,在V1中group一般为3,在V2中由于有channel split中已经分了两组

G3不是太明显,不太理解作者的解释

为了符合G4,没有了add,并且concat,shuffle,和split可以融合在一起,具体的实现未

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值