深度学习每层的通道数如何计算_模型通道剪枝之DMCP: Differentiable Markov Channel Pruning...

最新推荐文章于 2024-07-25 19:30:00 发布

weixin_39634132

最新推荐文章于 2024-07-25 19:30:00 发布

阅读量900

点赞数

文章标签：深度学习每层的通道数如何计算

本文链接：https://blog.csdn.net/weixin_39634132/article/details/111637917

版权

本文介绍了一种名为DMCP的新型深度学习通道剪枝方法，它将剪枝建模为马尔可夫过程，实现了端到端的可微优化，有效地减少了模型的计算量和参数量。DMCP通过期望采样生成紧凑的网络结构，避免了传统剪枝方法中大量子结构的训练和评估，提高了效率和性能。在与SOTA方法的对比中，DMCP在相同FLOPs限制下表现出优越的精度。

摘要由CSDN通过智能技术生成

模型压缩的目的是减小模型计算量(FLOPs or MACC)、减小模型参数量/体积、减小模型的推理时间(latency)。主要方法有知识蒸馏、紧凑网络设计、剪枝、量化、低秩近似等。今天分享一篇通道剪枝相关的论文。商汤出品，CVPR 2020 Oral。

论文传送门：http://arxiv.org/abs/2005.03354v1

商汤官方解读：https://zhuanlan.zhihu.com/p/146721840

Introduction

CNN是过参数化的，通道剪枝可以加速和压缩模型，去除不重要的通道使得模型更加高效、紧凑。通道剪枝可以被视为在原始网络中寻找一个最优的子结构的问题。典型的剪枝程式：预训练大模型 - 通道/权重剪枝 - 微调小模型。有一篇论文指出，剪枝后的模型结构是其性能表现的核心因素，而不是继承的所谓的重要的权重。这一发现表明通道剪枝的本质是找到良好的剪枝结构，即逐层通道数目。

搜索空间很大，如何高效的搜索？本文提出了DMCP，给定限制条件下可以端到端优化的通道剪枝算法。作者将通道剪枝建模为一个马尔可夫过程，马尔可夫过程中的状态

对应通道k被保留、

到

的转移概率对应当第k个通道被保留时第k+1个通道的保留概率。各状态的边缘概率可以由转移概率的乘积计算出来，该边缘概率被视作通道的重要程度。在网络前馈的时候，边缘概率作为系数乘以特征图的对应通道。该方法可以使用SGD来进行端到端的优化。优化结束之后，根据各状态的边缘概率对模型进行剪枝，重训剪枝后的模型来获得更高的性能。

Related Work

神经网络结构搜索（NAS）：一种与此相似的技术是NAS，例如DARTS。DARTS使用一组可学习的权重来设置每个候选操作的概率的参数，层的输出是概率和相应操作的特征图的线性组合。训练后，选择概率最高的候选操作构成最终架构。但是，DARTS是在小型代理任务上执行，然后将搜索到的结构迁移到大规模目标任务上。ProxylessNAS 通过仅采样两条路径来搜索大规模目标任务上的体系结构，从而避免了使用代理任务。但是DARTS中提出的可微方法并不能直接应用在剪枝过程中，原因在于：两者的所搜空间是不同的、DARTS总的各个操作是相互独立的而剪枝中存在一些隐含的逻辑关系。

通道剪枝：可以被分为硬剪枝（直接去除通道）和软剪枝（通道系数设置为0）。硬剪枝方法间的差异存在于剪枝标准的不同，例如权重标准，输出中零的平均百分比或每个通道对最终损失的影响。比如一种做法是采用BN中的比例因子作为通道重要程度的度量，稀疏训练后去除相对不重要的通道。软修剪方法主要是使修剪的通道为零或接近于零，以减少这些通道的影响。比如一种做法是首先通过层内准则和计算的层比率将一些滤波器置零，然后会逐渐增加置零的滤波器的比例，直到达到给定的计算预算为止。本文的方法可以归为软剪枝，与别的方法相比，本文方法最大的区别在于简化了搜索空间：

。另外的一些相关工作设计一个搜索过程，直接从未剪枝的网络中搜索最佳子结构。AMC提出采用强化学习的方法来训练一个控制器，它输出每层的剪枝率。MetaPruning使用元学习的方法来预测模型权重、结合遗传算法来搜索子结构。这两种方法存在的共性问题是：该过程在一个非常大的结构采样空间里面进行，这些方法的可扩展性受到限制。有关AMC和MetaPruning的简要介绍参见文尾。