Improved Residual Networks for Image and Video Recognition 论文理解

最新推荐文章于 2023-02-20 10:01:22 发布

小子他亲爹

最新推荐文章于 2023-02-20 10:01:22 发布

阅读量534

点赞数 1

分类专栏：深度学习文章标签：深度学习神经网络 pytorch

本文链接：https://blog.csdn.net/weixin_40817567/article/details/105686563

版权

深度学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

这两天读了一下这篇文章，作者大概思路是从三个方面优化

1.ResStage

该方案其实就是结合了original resnet 的block结构和pre-activation resnet的block结构，在一个stage中采用三段式，头和为采用original的结构，中间部分都是采用pre-activation结构
在这里插入图片描述

2.Improved projection shortcut

这个更好理解，意思就是在proj层进行投影时，不是用kernel=11，stride=2 的卷积来进行，因为这样的读取的数据为原来数据的25%，而且并没有特殊意义，对网络训练只会带来负面效果，所以文中作者采用33 的maxpool先做映射，然后在用1*1，stride=2的卷积来卷，这样数据上是有意义的，反正效果好了；
在这里插入图片描述

3.Grouped building block

这部分就是说，原来的resnet block操作都是先来11 的卷积减少featuremap的个数，然后进行33的卷积，最后再还原回来，这样做主要是减少中间33的参数量，同时也减少了计算量，但是block中主要就是3 3的卷积有学习能力，你砍掉他的channel，会造成学习到的东西减少，总之就是最终效果不好，所以作者就想通过扩大中间33卷积的channel数来提高最终效果，但是这么做又会增加计算量，所以就采用group卷积的方式，这样增大了channel，同时参数量也没变，最终效果也提高了，大家都开心了

总结：这篇文章感觉是工程化的优化，而且涉及到的一些技术都是已有的技术，没有特别的创新点，算是把大家的特长罗列罗列，然后融合一下，然后效果就是比你好，你气不气；刚开始拿到这篇文章，我 22页，这不是和牛批，后来一看，后面一大半都是在实验中度过。。。。

小子他亲爹

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Improved Residual Networks for Image and Video Recognition 论文理解

这两天读了一下这篇文章，作者大概思路是从三个方面优化1.ResStage该方案其实就是结合了original resnet 的block结构和pre-activation resnet的block结构，在一个stage中采用三段式，头和为采用original的结构，中间部分都是采用pre-activation结构2.Improved projection shortcut这个更好理解，意...
复制链接

扫一扫