论文题目 RePr:Improved Training of Convolutional Filters
这是2019年CVPR的一篇文章,主要针对卷积神经网络的训练方法,提出一种新的训练模式。训练插入Re-initializing和Pruning 简称 RePr,文章通过大量的分析和实验,验证了提出的训练方法非常有效,在cifar、ImageNet、VQA、object detection上涨点很多。
论文地址:https://arxiv.org/abs/1811.07275
亮点:
1、提出一种新的训练策略:通过循环删除冗余过滤器,重新训练网络,重新初始化已删除的过滤器以及重复来修改训练过程;
2、提出一种新的filter重要程度的度量方法;
【Introduction】
卷积神经网络在视觉任务中取得了SOTA性能,我们会为不同的任务单独设计不同的网络结构,虽然网络结构不同,但使用的优化方法都是一样的,而且这些优化方法将网络权重视为单独的个体,没有考虑彼此之前的相关性。而事实上,网络权重之间是有很大联系的。为了获取最好的性能,网络经常过参数化(over-parameterized)。然而即使是过参数化的网络,也会存在很多冗余的参数。model pruning证明了一个大的网络可以通过丢弃一部分参数权重得到一个性能损失不大的小网络,从而实现网络压缩和加速。
因此文章提出了一个新的训练方法。既然网络中有些参数权重是多余,那我们训练的时候把他们丢弃(pruning),接着训练剩下的网络,为了不损失模型的capacity,然后再把丢弃的参数拿回来,效果是不是会好一点呢?基于这个想法,文章作者任务有几个重要的点:一是pruning哪些权重,而是如何再把丢弃的权重拿回来让他们发挥更大的作用。本文的一个贡献在于提出了一个metric,用于选择哪些filters丢弃。同时作者指出,即使是一个参数很少( under-parameterized )的网络,也会出现学到冗余的参数的情况,这不仅仅在多参数的网络中存在,原因就在于训练过程低效。
【Motivation】
特征之间的相关性越高,其泛化性能越差。即使是参数少的模型