论文笔记_Optimal Brain Surgeon and General Network Prunng

最新推荐文章于 2024-11-20 09:40:24 发布

你搁这儿写bug呢？

最新推荐文章于 2024-11-20 09:40:24 发布

阅读量4.7k

点赞数 11

分类专栏：论文笔记文章标签：论文笔记神经网络模型裁剪

本文链接：https://blog.csdn.net/maqian5/article/details/90675598

版权

本文详细介绍了Hassibi和Stork提出的OBS方法，这是一种改进的神经网络权重剪枝技术，旨在通过计算海森矩阵的逆来精确确定应删除的权重，从而在保持性能的同时减少网络复杂性。相比于基于数值大小的剪枝和OBD方法，OBS在实验中表现出更好的效果，能够删除更多权重而不牺牲泛化能力。通过对海森矩阵的递归计算，OBS避免了剪枝错误并优化了其他权重。实验表明，OBS在多种网络结构上都优于其他剪枝方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是Hassibi 和Stork 等人1993年在LeCun的OBD方法基础上提出的，名为OBS。

文章目录

摘要

为了进一步改善泛化能力、简化神经网络、减少硬件和存储需求、加快训练速度、或者是规则提取，我们研究了所有使用误差函数的二阶导数去进行剪枝的相关信息。我们提出了OBS方法，相比较基于数值大小剪枝和OBD方法剪枝（这两种方法会剪掉错误的参数），我们的方法表现更佳。在同样的训练集和损失的情况下，OBS方法能比其他方法剪掉更多的权重参数，因此可以在相同的测试集上有更好的泛化能力。OBS方法的关键之处在于递归的计算海森矩阵的逆矩阵 $H^{-1}$ 。实验表明，OBS可以分别将三个在MONK问题上的基准神经网络（使用权重衰减）减少76%,62%,90%的参数。在一个XNOR网络上，使用OBS，OBD, 基于数值大小剪枝这三种方法，只有OBS在所有情况下都剪掉了正确的权重参数。最后，Sejnowski和Rosenberg提出的NETtalk网络有1800个权重，我们使用OBS方法在性能保持不变的情况下，将权重减少到1560个。

1.介绍

在机器学习和模式识别中，一个重要的问题就是最小化系统复杂度（description length， VC维等），在神经网络中，正则化问题经常扮演着最小化连接数量的角色，如果不使用正则化的话，将会导致网络过拟合，即泛化能力很差。相反的，如果网络中的权重太少，网络就可能学习不到数据的特征。
如果我们训练的网络有太多的权重，那么问题来了：我们应该删除哪些权重？应该怎样调整剩下的权重使得网络达到最佳的性能？应该怎么样快速高效的完成这样的网络剪枝过程？
一个方法是基于权重数量级的剪枝方法（mag），该方法会将较小的权重删除。这个方法的思想很简单，但是并不完全合理，有时候会将错误的权重删除–因为有时候数值较小的权重也是必要的。OBD方法使用了最小化训练误差增加的标准方法，为了计算的简便，OBD假设海森矩阵是对角线矩阵，但事实上，在我们研究的所有问题中，海森矩阵都不是对角线矩阵，所以OBD方法会删除掉错误的权重。我们的OBS方法是基于LeCun的OBD方法，但是并不对海森矩阵做任何限制，因此OBS总是消除正确的权重参数，而且，和其他方法不同，OBS在剪枝掉一个权重之后不需要重训练。

2.Optimal Brain Surgeon

和LeCun的方法一样，在进行剪枝之前，我们需要一个训练至误差达到局部极小的神经网络。误差函数关于权重w的导数可以用泰勒级数表示为：
$\partial E =(\frac {\partial E}{\partial w})^T * \delta w + \frac{1}{2} \delta w^T*H*\delta w + O(||\delta w||^3) \qquad\quad（1）$
其中 $\frac{\partial ^2E}{\partial w^2}$ 是海森矩阵（包含所有的二阶导数），上标T表示向量的转置。对于一个误差达到局部极小的神经网络，（1）式的第一项为0，另外，我们也将第三项及更高次幂项忽略。然后，我们的目标是将其中的一个权重 $w_q$ 置零，从而使得（1）式的变化最小。消除 $w_q$ 可以表示为 $\delta w_q + w_q = 0$ ,或者更加通俗的表示为：
$e_q^T*\delta w_q + w_q = 0\qquad\quad(2)$
其中 $e_q$ 是在权重空间中对应于 $w_q$ 的一个单位向量。于是我们的目标就变为了： $\min\limits_{q} （\min\limits_{\delta w}(\frac{1}{2} \delta w^T*H*\delta w) \quad|\quad e_q^T*\delta w_q + w_q = 0）\qquad\quad(3)$
为了解决公式（3），我们将公式（1）（2）转换为拉格朗日等式：
$\frac{1}{2} \delta w^T*H*\delta w + \lambda(e_q^T*\delta w + w_q)\qquad\quad(4)$
其中 $\lambda$ 是拉格朗日乘子，对（3）式求导，并使用逆矩阵来找到最优的权重改变并且将最优改变对误差函数的影响是：
$\delta w = -\frac{w_q}{[H^{-1}]_{qq}}*H^{-1}*e_q\qquad\quad(5)$
$L_q = \frac{1}{2}\frac{w_q^2}{[h^{-1}]_{qq}} \qquad\quad(6)$
注意，这里的海森矩阵 $H$ 和逆矩阵 $H^{-1}$ 都不要求是对角矩阵。进一步，我们的方法通过公式（5）重新计算了网络中所有权重的大小。我们将 $L_q$ 叫做权重q的“贡献度“（当某个参数删除后，所引起的误差的增加）。该方法定义的贡献度比OBD方法更加通用，当然该方法也包含了OBD方法。
于是我们就算法流程如下：