《Learning both Weights and Connections for Efficient Neural Networks》论文笔记

最新推荐文章于 2023-04-02 17:11:15 发布

m_buddy

最新推荐文章于 2023-04-02 17:11:15 发布

阅读量423

点赞数

分类专栏：模型压缩&加速文章标签： model compression

本文链接：https://blog.csdn.net/m_buddy/article/details/82669987

版权

模型压缩&加速专栏收录该内容

39 篇文章 6 订阅

订阅专栏

1. 论文思想

深度神经网络在计算与存储上都是密集的，这就妨碍了其在嵌入式设备上的运用。为了解决该问题，便需要对模型进行剪枝。在本文中按照网络量级的排序，使得通过只学习重要的网络连接在不影响精度的情况下减少存储与计算量。论文中的方法分为三步：首先，使用常规方法训练模型；使用剪枝策略进行模型修剪；在修剪模型的基础上进行finetune。经过试验证明改文章提出的方法使得AlexNet的大小减小了9倍，参数量从61百万降到了6.7百万，同时不会带来精度上的损失。

大型的网络会带来更多电能的损失，关系如下图
这里写图片描述
在本文中该文章中使用如下图中左边的三步操作进行模型剪枝，最后得到的结果如下图右图所示

在之前的GoogleNet中后面的使用Average Pooling替换全连接层，从而使得网络的参数量下降。剪枝在之前被用作是模型复杂度降低与防止网络过拟合。

2. 学习除权重之外的联系

2.1 正则化

正则化对剪枝与重新练具有重要的影响。L1正则化会使得权重趋近于零，这个在重新训练之前与剪枝之后会获得较好的精度。然而，剩下的连接没有L2正则化那么好，导致再训练后准确率下降。总的来说，L2正则化回来带更好的剪枝结果。

2.2 Dropout

Dropout被用来防止网络过拟合，但是随着剪枝的进行网络变得稀疏，使用原有的drop_rate便变得不合适。由于Dropout是随机使得一部分神经元失活，而pruning是永久删除链接。因而，drop_rate需要根据根据剪枝之后网络的情况进行改变。
剪枝之前的网络链接为 $C_{i}$ ，剪枝之后的为 $C_{ir}$ 。其中 $C_{i}$ 的定义为
$C_{i}=N_{i}N_{i-1}$
其中， $N$ 是层神经元的个数，对应的drop_rate变化应该遵循如下规则
$D_{r}=D_{0}\sqrt{\frac{C_{ir}}{C_{i}}}$