这两天读了一下这篇文章,作者大概思路是从三个方面优化
1.ResStage
该方案其实就是结合了original resnet 的block结构和pre-activation resnet的block结构,在一个stage中采用三段式,头和为采用original的结构,中间部分都是采用pre-activation结构
2.Improved projection shortcut
这个更好理解,意思就是在proj层进行投影时,不是用kernel=11,stride=2 的卷积来进行,因为这样的读取的数据为原来数据的25%,而且并没有特殊意义,对网络训练只会带来负面效果,所以文中作者采用33 的maxpool先做映射,然后在用1*1,stride=2的卷积来卷,这样数据上是有意义的,反正效果好了;
3.Grouped building block
这部分就是说,原来的resnet block操作都是先来11 的卷积减少featuremap的个数,然后进行33的卷积,最后再还原回来,这样做主要是减少中间33的参数量,同时也减少了计算量,但是block中主要就是3 3的卷积有学习能力,你砍掉他的channel,会造成学习到的东西减少,总之就是最终效果不好,所以作者就想通过扩大中间33卷积的channel数来提高最终效果,但是这么做又会增加计算量,所以就采用group卷积的方式,这样增大了channel,同时参数量也没变,最终效果也提高了,大家都开心了
总结:这篇文章感觉是工程化的优化,而且涉及到的一些技术都是已有的技术,没有特别的创新点,算是把大家的特长罗列罗列,然后融合一下,然后效果就是比你好,你气不气;刚开始拿到这篇文章,我 22页,这不是和牛批,后来一看,后面一大半都是在实验中度过。。。。