（精读论文）网络大瘦身

云雨、

已于 2023-07-04 11:50:46 修改

阅读量59

点赞数

分类专栏： # 模型压缩文章标签：深度学习神经网络人工智能

于 2023-03-26 13:02:20 首次发布

本文链接：https://blog.csdn.net/RuanJianNB/article/details/129777449

版权

模型压缩专栏收录该内容

14 篇文章 1 订阅

订阅专栏

论文地址：Learning Efficient Convolutional Networks through Network Slimming

一、精读论文

论文题目

Learning Efficient Convolutional Networks through Network Slimming

论文作者

Zhuang Liu, Jianguo Li, Zhiqiang Shen, Gao Huang, Shoumeng Yan, Changshui Zhang

刊物名称

IEEE INTERNATIONAL CONFERENCE ON COMPUTER VISION (ICCV)

出版日期

2017.8.22

摘要

深度卷积神经网络（CNN）在许多现实中的部署世界应用在很大程度上受到其高计算成本的阻碍。在本文提出了一种新颖的CNN学习方案，以同时1）减小模型尺寸;2）减少运行时内存占用;3）较低计算操作的数量，而不会影响准确性。这是通过在网络中以简单但有效的方法。与许多现有方法不同，所提出的方法直接应用于现代 CNN 架构，引入最小开销培训过程，不需要特殊的软件/硬件加速器对于生成的模型。我们称我们的方法为网络瘦身，这需要宽网络和大型网络作为输入模型，但在训练期间微不足道随后自动识别和修剪通道，产生薄和具有相当精度的紧凑型型号。我们凭经验证明我们的方法与几个最先进的CNN模型的有效性，包括VGGNet，ResNet和DenseNet，在各种图像分类上数据。对于 VGGNet，网络瘦身的多通道版本可提供 20 倍模型尺寸减小，计算操作减少 5 倍。

关键词

网络瘦身

总结

network slimming技术来学习更紧凑的神经网络。它直接将稀疏性诱导的正则化应用于批量归一化层中的缩放因子，因此可以在训练过程中自动识别不重要的通道，然后进行修剪。在多个数据集上，我们已经表明，所提出的方法能够显著降低最先进网络的计算成本（高达20倍），并且没有精度损失。更重要的是，所提出的方法同时减少了模型大小、运行时内存和计算操作，同时为训练过程引入了最小的开销，并且生成的模型不需要用于有效推理的特殊库/硬件。

二、研读总结（分三段总结，500字左右）

1、针对问题与解决方法

（总结论文针对解决的核心问题，提出的方法模型与创新点）
作者说使用网络瘦身（network slimming）可以同时做到以下三件事情：

减小模型大小
减小运行时的内存占用
在牺牲一点点精度的情况下大幅减少计算

能做到以上这些事情的其他方法也有，但是其他方法或需要特殊的硬件，或需要额外的训练开销，但是这个方法都没有！
那么它是怎么做到呢？
方法是将L1正则化应用于批处理规范化（BN）层中的缩放因子，因此在不引入任何现有CNN架构的情况下易于实现。通过L1正则化将BN缩放因子的值推向零，使我们能够识别不重要的通道（或神经元），因为每个缩放因子对应于特定的卷积通道（或完全连接层中的神经元）。这有助于在接下来的步骤中进行通道级修剪。附加的正则化项很少影响性能。
简单来说，就是拿一个大型网络(如resent105)，往里面搞点东西，然后拿去训练，在训练的过程中自动的把那些额外的channel删掉，进而得到一个比较精简的模型。效果也是很不错的：模型大小是原来的1/20，操作数是原来的1/5。

具体方法：
1、在训练时，对BN层的scaling factor施加L 1正则化，在训练网络的同时得到稀疏化的尺度因子；
2、裁掉低于指定阈值的channel；【（1）设定裁剪的百分比；（2）依据百分比找到所有尺度因子对应的值作为阈值；（3）逐层进行裁剪】
3、对得到的模型进行fine-tune以恢复因裁剪损失的精度。

2、数据实验与结论分析

（总结论文实验结果，提高的评价指标，贡献与不足）
BN层的初始化为0.5，而不是其他论文所使用的的1，这是因为作者发现这样能得到更高的精度（但作者没有在ImageNet上实验）。 在裁剪的时候，需要决定阈值。文中的阈值通过所有尺度因子由一个百分比所对应的值来决定。

实验结果

在CIFAR和SVHN数据集上的实验结果如下：
在这里插入图片描述
各个模型在CIFAR-10上的裁剪情况如下：对于ResNet104，参数压缩率和FLOPS压缩率都相对不明显。作者猜测是由于bottleneck结构和channel select层导致的。

VGGNet在CIFAR-10和CIFAR-100的多阶段压缩方案（一次prune和finetune挽回损失为一个阶段）：可以看出，在较小数据集CIFAR-10，直到第5次迭代才出现了较大损失；在较大数据集CIFAR-100，在第三次迭代就出现了较大损失。

![在这里插入图片描述](https://img-blog.csdnimg.cn/e00ea359e0b24f2b89c6c0044e97dfcf.png