Improved Residual Networks for Image and Video Recognition 论文理解

这两天读了一下这篇文章,作者大概思路是从三个方面优化

1.ResStage

该方案其实就是结合了original resnet 的block结构和pre-activation resnet的block结构,在一个stage中采用三段式,头和为采用original的结构,中间部分都是采用pre-activation结构
在这里插入图片描述

2.Improved projection shortcut

这个更好理解,意思就是在proj层进行投影时,不是用kernel=11,stride=2 的卷积来进行,因为这样的读取的数据为原来数据的25%,而且并没有特殊意义,对网络训练只会带来负面效果,所以文中作者采用33 的maxpool先做映射,然后在用1*1,stride=2的卷积来卷,这样数据上是有意义的,反正效果好了;
在这里插入图片描述

3.Grouped building block

这部分就是说,原来的resnet block操作都是先来11 的卷积减少featuremap的个数,然后进行33的卷积,最后再还原回来,这样做主要是减少中间33的参数量,同时也减少了计算量,但是block中主要就是3 3的卷积有学习能力,你砍掉他的channel,会造成学习到的东西减少,总之就是最终效果不好,所以作者就想通过扩大中间33卷积的channel数来提高最终效果,但是这么做又会增加计算量,所以就采用group卷积的方式,这样增大了channel,同时参数量也没变,最终效果也提高了,大家都开心了
在这里插入图片描述
在这里插入图片描述
总结:这篇文章感觉是工程化的优化,而且涉及到的一些技术都是已有的技术,没有特别的创新点,算是把大家的特长罗列罗列,然后融合一下,然后效果就是比你好,你气不气;刚开始拿到这篇文章,我
22页,这不是和牛批,后来一看,后面一大半都是在实验中度过。。。。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值