Revisiting ResNets: Improved Training and Scaling Strategies论文简述

最新推荐文章于 2024-03-07 14:15:40 发布

RANKING666

最新推荐文章于 2024-03-07 14:15:40 发布

阅读量644

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_42638415/article/details/123907771

版权

这篇论文刚开头就说到现如今人们对于计算机视觉架构具有非常高的关注，但其实每一次新的SOTA的模型架构，其实都经常同时改变训练方法学和缩放策略相结合。所以说，这篇论文就重新审视思考了resnet这一经典的模型架构。

然后，作者对比了现在非常火的高性能的用nas搜出来的网络结构effcientnet，与resnet对比，effcientnet到底为什么比resnet强，是因为模型架构吗?还是训练策略，数据增强等tricks。然后，就有了下图：

横坐标为模型训练一次所需时间，简单来说就是模型复杂度，我们可以对比在，看到在0.6左右时，effcientnet的准确率是远远高于resnet，但是当我们将现在比较SOTA的一些训练的tricks，加上去后，可以看到，两者的性能直接非常近似，我们再稍微修改resnet的结构，改为resnet-rs后，性能就完全超过了effcientnet。

所以说，我们不能仅仅只关注到模型结构的不断改进，不断完善改进优化的tricks也是非常重要的（个人观点）

然后，作者就向我们介绍了现在比较流行的几中tricks。

我们一个一个来简单介绍

①Cosine LR Decay

很简单，就是让学习率按照余弦逐渐下降，开始时快速下降，快速趋近最优值，到后期学习率减小缓慢，防止越过最优值。

就是学习率的一种更新策略。

②increase training epochs

更简单了，就是增加迭代次数，训练几轮。

③EMA of weights

指数移动平均（Exponential Moving Average）也叫权重移动平均（Weighted Moving Average），是一种给予近期数据更高权重的平均方法。

具体的应用就是，在模型训练时，我们正常训练模型，但是会保留一个epoch的最后5次迭代的权重，对最后5次的权重做EMA，用于测试集进行测试，并且保留该EMA之后的权重，用于下一个epoch的初始更新权重。

具体公式和代码，可以看论文里都有详解，这里只做一个理解的介绍。

④Label Smoothing

标签平滑：什么意思，就是说我们一般训练时，比如多种类标签[0,0,0,0,0,0,1]但是，这样一定好么？不一定。他会导致我们过分相信依赖训练集的数据，很容易造成过拟合。模型对于预测过于自信，以至于忽略到可能的小样本标签。

所以我们如果对label做一个标签平滑比如 [0.1,0.1,0.05,0.003,0.005,0.78]，这样有什么好处，举个不太恰当的例子，如果有一个猫，长得和训练集里面的一个狗非常相似，那么由于我对于训练集数据过分自信，非常容易将这个猫当成狗，但是经过标签平滑后，我们就会对次产生质疑，并不会完全可能识别成狗。

⑤随机深度

这点，其实和dropout有点类似，都是随机丢掉某些层，块之类的，来可以使得一个神经元的训练不依赖于另外一个神经元，同样也就使得特征之间的协同作用被减弱。也就是缓解过拟合的问题。

同时，模型初始的一些层，包含的特征信息较多，所以随机丢弃的概率也比较低。

⑥随机增强：

就是列了一堆数据增强，什么翻转，裁剪之类的，然后随机选择几个。

⑦Dropout刚刚说过了

⑧Decrease weight decay

权重衰减，L2正则化，实现起来了也很简单，torch中的优化器都有这个参数

⑨SE模块

就是注意力机制，输入会经过两次全连接之类的变化，输出每个通道的一个比例系数，然后乘在原输出通道上，做一次注意力机制。

⑩resnet-D

直接上模型结构图

RANKING666

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Revisiting ResNets: Improved Training and Scaling Strategies论文简述

这篇论文刚开头就说到现如今人们对于计算机视觉架构具有非常高的关注，但其实每一次新的SOTA的模型架构，其实都经常同时改变训练方法学和缩放策略相结合。所以说，这篇论文就重新审视思考了resnet这一经典的模型架构。然后，作者对比了现在非常火的高性能的用nas搜出来的网络结构effcientnet，与resnet对比，effcientnet到底为什么比resnet强，是因为模型架构吗?还是训练策略，数据增强等tricks。然后，就有了下图：横坐标为模型训练一次所需时间...
复制链接

扫一扫