论文解读《Channel pruning based on convolutional neural network sensitivity》

最新推荐文章于 2023-10-09 19:09:35 发布

谁来管毕设

最新推荐文章于 2023-10-09 19:09:35 发布

阅读量641

点赞数 1

文章标签：剪枝人工智能

本文链接：https://blog.csdn.net/qq_46031969/article/details/128478285

版权

论文：Channel pruning based on convolutional neural network sensitivity

论文地址：DOI：10.1016/j.neucom.2022.07.051

发表时间：2022/7, Neurocomputing

摘要

剪枝是一种有效的减少深度卷积神经网络(CNN)模型的内存消耗和浮点运算(FLOPs)的方法。然而，在特定剪枝水平上，目前的结构化剪枝方法往往导致相当大的精度损失。此外，现有的方法往往将剪枝率作为超参数，忽略了不同卷积层的敏感性。本研究中，我们提出了一种新的基于灵敏度的通道剪枝方法（利用二阶灵敏度作为标准）。核心理念是修剪不敏感的过滤器，保留敏感的滤波器。我们使用滤波器中所有权重的灵敏度之和来量化滤波器的灵敏度，而不是文献中经常应用的基于幅度的度量（啥是基于幅度的度量？）。在此基础上，引入基于各层海森特征值的层灵敏度方法，自动选择各层的最适剪枝率。在各种现有CNN架构上的实验表明，我们可以在损失少量精度的情况下显著提高剪枝率，使CIFAR-10上的FLOPs降低了60%以上。值得注意的是，在ImageNet上，对ResNet50的剪枝将FLOPs降低了56.3%，而准确率仅下降了0.92%。

1. 引言

卷积神经网络(CNN)近年来发展迅速，已成为计算机视觉、自然语言处理和语音识别等多个领域的主导技术。然而，为了获得更好的性能往往需要更大更深的CNN。由于模型较大，它们很难部署在资源受限的边缘设备中，例如移动处理器和机器人，这些设备需要实时推断，内存可用性有限。为了提高计算效率和速度，已经提出了许多压缩冗余CNN的可选方法。这些研究大致可以分为以下几类:网络量化、矩阵分解、剪枝、蒸馏等。其中，剪枝是最受欢迎的技术之一，受到了相当大的关注。

剪枝通常分为两类:权重(非结构化)和通道(结构化)。权重剪枝从过滤器中删除特定的权重，形成大量的稀疏矩阵。如果没有专门的硬件或软件，非结构化稀疏可能会阻碍剪枝后的CNN加速和获得显著性能增益。

相比之下，通道剪枝的目标是删除每层中所选择的整个滤波器和相应的通道，从而得到具有规则结构的模型。在目前常用的通道剪枝方法中经常使用逐层剪枝。在每一层中，有信息量的通道被选择，最不重要的通道由最小化下一层的重建误差或其他准则来剪枝。然后，通过再训练对网络进行微调，调整各层参数，恢复模型精度。这些方法速度较快，因为它们逐层修剪，并且只进行一次微调。因此，通道剪枝是加速网络和减小模型规模的最有效工具之一。在不牺牲性能的情况下能更经济、灵活地实现高压缩比。

对于权重和通道剪枝，最基本的任务是找到并删除最不重要的权重或过滤器。最佳脑损伤(OBD)和最佳脑外科医生(OBS)是两种基本方法，它们使用泰勒级数来估计每个权重被移除后损失函数的变化，并修剪导致最小损失变化的权重。这些传统的剪枝策略被用于最小化浅神经网络中的过拟合。在最近的一项研究中，这一概念被成功应用于深度神经网络。作者提出了L-OBS，一种分层剪枝方法，使用二阶导数修剪每层的权重。

上面描述的三种方法都是权重剪枝策略，导致非结构化稀疏和效率低下。为了解决这个问题，我们提出了一种新的基于灵敏度的信道剪枝方案，利用二阶信息来确定每个滤波器的灵敏度，并修剪低灵敏度的滤波器。

本研究的主要贡献如下:

1. 我们对OBS提出了一种新的修改，其中滤波器的灵敏度是通过其所有权重的总二阶灵敏度来测量的。此外，通过估计一层中所有滤波器的灵敏度，我们可以在保留灵敏度相对较高的滤波器的同时删除不敏感滤波器;
2. 我们采用了一种分层策略来估计海森矩阵，并逐层修剪滤波器以降低计算复杂度。为了提升效果，我们采用自适应技术自动确定每层的修剪速率;
3.提出的方法在不同的网络结构和数据集上进行了测试。实验结果表明，我们的方法达到了最好性能。为了证明我们方法的有效性，我们还进行了一个综合消融实验。

本文其余部分组织如下。在第2节中，我们将介绍模型剪枝中的相关工作。在第3节中，我们将详细阐述所提出的方法。我们的结果和消融实验将在第4节中描述。最后，第5节中提出了我们的结论。

2. 相关工作

网络剪枝是一个从20世纪90年代开始长久以来讨论的话题。[5,7,18]的工作是深度神经网络领域最著名的早期工作之一，采用权重剪枝并取得了合理的结果。如前所述，权重修剪会导致网络中的非结构化稀疏，在没有专门的软件和硬件的情况下阻碍其使用。因此，我们在下面简要介绍通道剪枝的相关研究。通道剪枝的目的是对每一层的整个通道进行剪枝，以消除对专用硬件的需求，简单直接。然而，这也是具有挑战性的，因为删除一层中的通道可能会对下一层的输入产生重大影响。因此，确定有效的剪枝策略至关重要。找到并修剪最不重要的滤波器是所有通道修剪方法中最流行的方法之一，它可以进一步分为两类:

（1）重构误差最小化 许多研究将这一策略与各种方法结合起来使用。例如，[21]的作者在特征映射中使用冗余来减少重建误差，然后修剪每一层中的通道。感知识别通道剪枝(DCP)[39]将通道剪枝问题定义为一个同时考虑重构误差和通道分辨能力的稀疏性优化问题，并提出了一种贪婪方法来求解。基于从下一层获得的统计信息，ThiNet[20]将滤波器剪枝定义为优化问题，并修剪下一层重构误差尽可能小的滤波器。神经元重要性评分传播(Neuron importance score propagation, NISP)[11]最小化“最终响应层”中重要响应的重构误差，应用特征排序算法传播整个网络的重要性，并修剪重要性较低的过滤器。

（2）使用特定规则对过滤器进行排序和修剪 最流行的方法之一是基于幅度的剪枝。在该方法中，参数的大小被用作度量标准。其中的假设是小参数不是必需的，可以删除。例如，在[22]和[23]中，使用相关特征图中的最小权值或激活值修剪滤波器。类似地，[26]建议使用滤波器的最小l2范数标准来选择滤波器，并以一种温和的方式修剪那些选择的滤波器。还有使用替代指标的其他方法。例如，[24]假设，如果某些神经元的大部分输出为零，那么这些激活应该被预测为冗余，因此他们使用零(APoZ)激活神经元的平均百分比作为标准，并去除APoZ较小的过滤器。在[25]中采用了上述方法的一种变化，采用批归一化层的标度因子作为重要度度量，比例因子(或输出值)较低的通道被认为不那么重要并被删除。[27]的作者假设低秩特征图包含较少的网络信息，并提出了HRank，它从数学上定义了特征图中的秩，作为使用低秩特征图修剪过滤器的标准。

以上许多方法都采用了“范数越小越不重要”的准则来进行通道剪枝，在这种准则下，具有较小范数的滤波器由于其显著性较低，可以被安全地剪枝。然而，这一标准并不总是有效的[28,29]。一个重要的考虑是，具有小幅度的滤波器可能对输出非常敏感。这很容易用二阶泰勒级数展开来观察，其中摄动（不知道是什么，大概就是扰动吧）依赖于Hessian矩阵[13]，它包含关于网络的二阶信息。因此，OBD[13]通过将海森简化为对角线矩阵来评估灵敏度。OBS[30]使用了类似的策略，但它考虑了非对角海森分量，并快速计算了海森逆矩阵。最近的工作[15]将其扩展到分层剪枝，以降低获取Hessian信息的计算成本。然而，前三种方法可能导致非结构化稀疏。我们的网络通道修剪部分受到这些方法的影响，我们成功地采用了基于hessian的方法在通道剪枝方面取得了较好的性能。

3. 方法

我们的方法是基于先前对OBD[13]、OBS[30]和L-OBS[15]的工作开发的，其中每个权重的扰动必须分别测量，并且用最小扰动修剪权重。这些方法导致非结构化剪枝，很难加速。为了克服这一限制，我们提出了一种对权重进行分组并在修剪该组时测量相关扰动的方法。
在3.1节中，我们扩展了OBS中灵敏度的计算方法。首先，给出了一组权重的灵敏度计算方法。然后，我们提出了一种对角线近似，简化了海森矩阵的计算。如此，我们可以得出结论：滤波器的灵敏度等于该滤波器中所有单个权重的灵敏度之和。在第3.2节中，我们介绍了一种分层的方法来计算Hessian信息，并确定每层中所有单个权重的灵敏度。在3.3节中，为了提高全局剪枝的准确性，我们采用了一种基于灵敏度的剪枝率计算方法来确定每个卷积层的剪枝率。在第3.4节中，我们描述了通道剪枝方法的整个过程。

3.1. 基于灵敏度的通道剪枝

在监督学习任务中，具有l个卷积层的深度神经网络的理论目标是最小化经验误差函数 $E(w)$ ，得到的优化问题表述如下:

其中w是是每一层中可训练权重的组合，e是输入数据xi的误差，其中yi是对应的标签，N是训练集基数。

按照顺序，我们选择导致训练误差增加最少的修剪扰动。对于使用泰勒级数展开的dx变化，误差的期望函数增长为：

其中 $\delta$ 表示对应变量的扰动，g为误差函数E的梯度，H是对应的Hessian矩阵。对于一个已经训练到局部误差最小的预训练网络，我们可以得到g=0。此外，我们还忽略了三阶项和高阶项（全置零）。

由此，通过识别由一组对误差dE的扰动最小的权值组成的通道来完成通道剪枝。因此创建了一个约束优化问题，其中函数在如下所示的限制下最小化：

其中 $w_{p}$ 表示被剪掉的通道中的p个权重， $w_{q}$ 表示留下的权重。类似的，我们用 $\delta w_{p}$ 和 $\delta w_{q}$ 来表示 $w_p$ 和 $w_q$ 的扰动。此外，Hpp和Hqq分别是修剪掉的权重和未剪掉的权重的海森矩阵。这个优化问题可以用拉格朗日乘子法求解，在鞍点两边求导即可:

计算得到

带入（3）得到

其中表示 $H^{-1}$ 的p维子块， $L_{w_p}$ 称为 $w_p$ 的敏感度，是删除通道权值后对误差的扰动。由式（6），我们可以根据它们的敏感度得分来确定应该修剪的通道。

特殊的，当p是1时，（6）式可以简化为：

其中表示逆海森矩阵的第p个对角线元素。

接下来，我们讨论了式(6)的简化。我们引入了一个简化的对角近似来减少海森信息的计算。在式(6)中，我们假设为对角矩阵，交叉项忽略如下:

将式(7)与式(8)进行比较，我们可以发现，一组权重的灵敏度等于所有单个权重的灵敏度之和:

这表明，同时修剪几个权重所引起的扰动 $\delta E$ 是分别修剪每个权重所引起的扰动 $\delta E$ 的和。[13]提出了一个类似的对角近似，它假设海森是一个对角算子，可以计算单个权重的灵敏度，而不需要逆海森。

我们还可以观察到基于灵敏度的剪枝和基于幅度的剪枝之间的关系:当海森矩阵是单位矩阵时，基于幅度的剪枝是基于灵敏度的剪枝的一个特定情况。将海森逆矩阵近似为Eq.(8)中的单位矩阵，可得:

因此，灵敏度 $L_{w_p}$ 等于这些权重的L-2范数的和，这将该方法转化为基于幅度的剪枝方法。在[22]中提出了一种类似的基于幅值的剪枝方法，该方法使用一个滤波器中权重的L-1范数来选择不重要的滤波器并进行剪枝。

3.2. 单个权重的灵敏度

为了确定滤波器的灵敏度，需要首先估计该滤波器每个权重的灵敏度。该过程中最困难的部分是计算和存储海森矩阵及其逆矩阵，这可能很耗时。因此，我们采用[14,15]的方法限制了每层二阶Hessian矩阵的计算，并逐层获得单个权重灵敏度。

对于训练良好的具有n个实例的训练集的深度神经网络中的卷积层l，我们将该层的输入和输出表示为和，然后可以得到，其中是第l层的权值矩阵， $\sigma$ 为激活函数。假设我们将 $w_l$ 中的一个元素设为0，即去掉层l中的一个权值，那么我们就可以得到新的对应层l的输出该层的误差函数可以定义为:

误差函数对 $w_l$ 的一阶导数为:

对应的海森矩阵定义为：

假设层l有 $m_l$ 输出单元，（13）式可以简化为：

由式（17）我们可以得到层l的逆Hessian矩阵 $H_l^{-1}$ ，从而计算各层中所有单个权重的的灵敏度L。

3.3. 自适应剪枝率计算

因为我们逐层计算海森矩阵和剪枝，每一层都独立于其他层，恒定的剪枝率可能会导致精度严重下降。更有效的替代方法是对每一层采用自适应剪枝率。直观地，我们还可以使用灵敏度方法来确定每一层的剪枝率。对不太敏感的层用较高剪枝率，更敏感的层用较低的剪枝率，以确保最终结果的准确性。在执行逐层修剪时，可以对单个层使用各种修剪率，这允许在保持模型准确性的同时实现更大的压缩率。一般来说，具有更大的海森谱(即更大的特征值)的层被认为对修剪更敏感。因此，利用海森矩阵的最大特征值来确定各层的灵敏度。同时，由于这种情况下海森矩阵的维数很大，上述算法在计算海森矩阵时进行了一些近似。因此，不可能直接得到矩阵最大特征值。为了获得更精确的特征值，我们使用幂次迭代方法[32]隐式计算矩阵的系数(参见算法1)。

接下来阐述如何隐式地计算Hessian matvec Hv（这个matvec不知道是啥）。首先，让gl表示误差函数相对于层l权重的梯度，这可以通过反向传播直接检索。

对于一个随机向量v(与 $g_l$ 具有相同的维数)，我们有:

然后，利用幂次迭代法计算层l的最大特征向量和最大特征值。

如图1(a)所示，我们在CIFAR-10上实现了上述方法来计算VGG-16各层的Hessian矩阵的顶部特征值。可以观察到，各层的最大特征值变化显著。我们还通过在每一层的Hessian的顶部特征向量上扰动预训练的模型来展示VGG-16的loss landscape，如图1(b)所示。可见，各层的“陡峭程度”差异明显。因此，我们可以观察到，具有较高Hessian特征值的层比具有较低Hessian特征值的层损失波动更大。如图所示，VGG-16的第二层比最后一层对扰动更敏感。

通过计算和比较神经网络中每一层对应的Hessian矩阵的顶部特征值，该比值（不知道这里说的the ratio是啥）可以量化每一层的相对敏感性，指导每一层修剪速率的设置。在量化的背景下，[33]提出了类似的方法。

3.4. 剪枝策略

我们的策略优化了计算效率，同时通过从训练良好的模型中修剪不太重要的滤波器来减少精度损失。如图2所示，我们通过将各层权重的灵敏度进行聚合，并根据其灵敏度进行排序，来确定各层滤波器的相对灵敏度。对各层采用相同的剪枝率是不合理的;因此，我们通过应用顶部Hessian特征值来获得单层的灵敏度。然后，我们分别对每一层应用自适应修剪率。我们可以根据剪枝率和滤波器的灵敏度等级对不敏感滤波器进行逐层剪枝。在修剪滤波器之后，应该重新训练网络以补偿性能下降。

本文提出的滤波器剪枝方法的步骤总结如下:
1. 逐层计算预训练模型中各权重的敏感度;
2. 对于每个滤波器，计算其权重的总敏感度即为该滤波器的灵敏度;
3.在每一层中，所有滤波器按敏感度从低到高排序;
4. 估计了每一层的Hessian的顶部特征值，用于评价每一层的灵敏度;
5. 每一层的剪枝率是根据规定的整体剪枝率和每一层的敏感比来确定的;
6. 根据每一层的剪枝率对一定数量的低灵敏度滤波器进行剪枝;
7. 通过再训练对网络权值进行微调，得到最终模型。

4. 实验

4.1 实验设置

我们使用两个常用的数据集ImageNet和CIFAR-10，在vgg -16和ResNet上评估了我们的方法。在CIFAR-10数据集上使用VGG-16和ResNet56测试了剪枝方法的性能，在ImageNet上使用ResNet50和ResNet34测试了剪枝方法的性能，使用精度下降和FLOP减少作为指标。目标是用更少的浮点运算(FLOPs)获得更好的精度（哦？意思是希望剪枝之后性能不光能维持现状，还提升了？）。

数据集 我们在小型和大型数据集上进行了实验:CIFAR-10和ImageNet。CIFAR-10数据集包括10个类别的6万张32*32彩色图像，其中5万张训练图像和1万张测试图像。ImageNet包含128万张训练图像和5万张验证图像，总共有1000个类。

架构设置 最初创建VGG是为了对ImageNet中的图像进行分类。在我们的测试中使用了为CIFAR开发的VGG-16的原始变种。VGG-16由13个卷积层和2个全连接层组成，由于其输入尺寸较小，全连接层在参数中所占比例不高。因此，我们专注于修剪卷积层。此外，由于其简单的拓扑结构，我们可以根据给定的剪枝率直接修剪通道。ResNet由于其独特的shortcut结构，存在一定的局限性。例如，为了完成求和操作，同一组中每个块的通道数必须一致。因此，显式修剪每个剩余块的最后一个卷积层是困难的。由于大部分参数都位于前两层，我们没有计算最后一层的剪枝率，在我们的实验中只修剪了每个block的前两层（偷懒的方法！），如图3所示。

训练设置 根据[29]中描述的设置对模型进行CIFAR-10的训练。对于ImageNet实验，我们应用了来自Torchvision的预训练模型。我们还使用了[26]中介绍的微调方法。对于CIFAR-10，我们在修剪后对网络进行了200个epoch的重新训练，从0.1的学习率开始，在60、120和160 epoch的衰减率为0.1，以获得最佳性能。对于ImageNet，我们对修剪后的网络进行了150个epoch的微调，每30个epoch的基础学习率为0.1，衰减率为0.1。所有模型均采用随机梯度下降(SGD)算法。批大小、重量衰减和动量分别设置为256、0.0001和0:9。使用Pytorch 1.8进行测试。我们将我们的方法的性能与各种现有的最先进的通道修剪技术进行了比较:AutoML用于模型压缩(AMC)[10]、NISP[11]、ThiNet[20]、最小权值(MW)[22]、软过滤修剪(SFP)[26]、HRank b[27]、几何中值(GM)[29]、Taylor展开[38]、DCP[39]、可纤细神经网络(SNN)[40]、Autopruner (AP)[41]、生成式对抗学习(GAL) b[42]、可转换架构搜索(TAS)[43]、簇修剪(CUP)[44]、人工蜂群修剪(ABC)[45]、变分修剪(VarP)[12]、软通道修剪(SCP)[46]、学习滤波器剪枝准则(LFPC)[47]、稀疏结构选择(SSS)[48]、可微稀疏度分配(DSA)[49]、协同通道剪枝(CCP)[50]、Hinge[51]、结构冗余缩减(SSR)[53]、LeGR[54]、Taylor[55]、离散模型压缩(DMC)[56]和NPPM[57]。

4.2 性能评估

4.2.1 CIFAR-10结果

在CIFAR-10上，通过与VGG-16和ResNet56等多种优秀的cnn进行比较，评估了本文方法的性能，结果如表1所示。我们的方法从结构中删除了相当大比例的flop，而对性能的影响很小。与其他方法相比，我们的方法的优点是显而易见的。修剪VGG -16的结果如表1所示，并与文献中的其他方法(如GAL、HRank和VarP)进行了比较。在这里，我们始终如一地实现了优越的压缩比和较低的精度下降。特别地，为了与HRank进行公平的比较，我们将模型剪枝后的准确率降低设定为相同(0.53%)，并实现了54.1%的FLOP降低，优于HRank的结果(53.5%)。此外，考虑到相同的FLOP降低(约65.3%)，我们在准确度降低方面获得了更好的结果(1.46% vs 1.52%)。通过极端修剪，我们能够将FLOPs降低70.1%，同时仅损失1.7%的准确性。因此，结果表明，我们的方法可以压缩和加速具有简单结构的神经网络。

ResNet56的结果如表2所示。使用更大比例的修剪flop时，与相应的预训练基线模型相比，我们的方法可以达到93.45%的准确率，只有0.33%的退化。最近的方法，如LFPC，需要多3.9%的flop才能达到相同的精度。当将我们的方法与GAL-0.8进行比较时，可以观察到类似的结果;在保持相同FLOPs的情况下，我们实现了较低的准确度降低(0.82% vs 2.90%)。这些结果表明，我们的方法比现有方法有明显的优势。（怎么精准控制相同的flop下降和精度下降从而控制变量比较的？）

4.2.2 ImageNet结果

我们还在复杂的ImageNet数据集上使用ResNet50进行了试验。在测试模型压缩方法时，ImageNet比CIFAR-10更值得信赖。对于我们的方法，我们使用了三种不同的剪枝率，结果显示在表3中。与之前在ResNet50上的所有工作相比，我们在几乎所有情况下都实现了更好的准确性和更大的FLOPs下降。例如，在flop下降44.3%的情况下，我们的修剪模型的准确性仅下降了0.46%。当对相似的flop进行修剪时，现有方法的准确性通常会降低1%以上。当剪枝率增加到56.3%时，所提出的方法仍然具有良好的测试精度(减少0.92%)，优于所有现有方法。实验结果验证了所提方法的有效性。ResNet34的结果如表4所示。我们的方法可以显著降低给定网络的计算成本，同时造成最小的性能影响。例如，我们可以减少48.9%的flop，而性能下降只有0.23%。与其他修剪方法相比，我们的方法在ResNet34上修剪了更多的flop，性能降低更小。

4.2.3 消融实验

我们进行了额外的消融试验以检查我们的敏感度剪枝方法的有效性。简单起见，我们使用ResNet56在CIFAR-10上运行所有实验。在其他网络和数据集中也可以发现类似的观察结果。首先，我们随机修剪通道，不管它们的灵敏度如何（在表5中标记为random）。很明显，随机通道修剪方法在所有情况下都比我们的方法有更大的精度下降，这表明合理和有序的剪枝度量是必不可少的。这表明所提出的基于灵敏度的信道选择是有效的。基于模的准则，如lp范数，因其计算成本低而被广泛应用于信道选择中。因此，在第二次消融实验中，我们比较了基于灵敏度的剪枝与流行的基于幅度的方法的性能，后者使用l1范数作为度量[22]，我们将其标记为表5中的l1范数。由3.1节Eq.(10)可知，l1范数剪枝是本文方法的退化情况。因此，这些方法在剪枝策略和处理上有许多相似之处，如一次性剪枝再训练策略和分层剪枝过程。它们之间的关键区别是不同的渠道选择标准。通过对比，我们清楚地观察到我们提出的基于灵敏度的通道选择和修剪方法的有效性。为了公平比较，我们将两种修剪方法中每一层的剪枝率设置为相同（哦？）。从实验结果来看，我们的方法比l1范数修剪获得了更高的精度，但参数和FLOPs更少。例如，对于59.96%的flop剪枝，这与l1范数剪枝(58.88%)几乎相同，我们只导致0.82%的精度下降，而不是1.73%，这是一个实质性的差异。因此，从消融结果来看，我们的方法的性能高于基于幅度的方法，因为我们基于灵敏度的准则优于基于幅度的准则。

5. 结论

在许多情况下，现有的结构化剪枝方法在应用到中等修剪水平时会导致相当大的精度下降。为了克服这一问题，我们提出了一种新的二阶灵敏度结构化剪枝方法，该方法利用滤波器权重的灵敏度之和作为CNN模型中剪枝滤波器的度量。其基本概念是确定每层中需要修剪的滤波器数量，然后通过应用得到的修剪率来修剪不敏感元素。通过使用许多不同的CNN模型进行测试，证明了该方法在降低计算复杂度和模型规模方面的可行性和有效性。我们还将我们的技术与许多现有的方法进行了比较，包括基于幅度的修剪方法，结果表明我们的方法始终能够以更少的flop产生更高的精度。这些结果表明，所提出的剪枝方法明显优于现有的方法。

谁来管毕设

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
2
评论
论文解读《Channel pruning based on convolutional neural network sensitivity》

论文解读《Channel pruning based on convolutional neural network sensitivity》
复制链接

扫一扫