Stochastic Model Pruning via Weight Dropping Away and Back

摘要

深度神经网络已经在各种具有挑战性的任务中取得了巨大的成功。然而,大多数成功的dnn都具有极其复杂的结构,导致了对模型压缩的广泛研究。传统的渐进性剪枝方法是模型压缩研究的一个重要领域,它涉及到迭代剪枝再训练过程,可能存在两个关键问题:局部重要性判断,剪枝权值在当前模型中仅仅是不重要的;以及一个不可挽回的修剪过程,修剪后的权重没有机会再回来。针对这两个问题,本文提出了Drop Pruning方法,该方法利用剪枝过程中的随机优化,在每个剪枝步骤引入一个Drop策略,即Drop away,随机删除一些不重要的权值;Drop back,随机恢复一些修剪后的权值。在剪枝过程中,适当选择掉落概率可以减小模型规模,有利于模型向目标稀疏化流动。与随机训练一个紧凑模型进行修剪的贝叶斯方法相比,我们直接针对随机渐进修剪。我们提供了一个详细的分析,表明下降和下降回来的方法有个人的贡献。此外,与最先进的权值剪枝和贝叶斯训练方法相比,Drop Pruning可以在许多基准任务上实现具有竞争力的压缩性能和准确性。

1. Introduction

近年来,从基本的图像分类挑战到∗,各种各样的深度神经网络(DNNs)在许多人工智能任务中显著提高了准确性,包括计算机视觉任务[17,29,13]。一些高级应用,如目标检测[23]和语义分割[27]。然而,这些网络通常包含数千万个参数,导致存储需求相当大,增加了难度
解决上述问题的一种方法是模型压缩,因为模型总是过度参数化[36,25]。在各种模型压缩方法中,模型剪枝方法取得了显著的进展。如图1(a)和(b)所示,传统剪枝过程[11,39]从一个基线模型(未压缩的模型,用向量表示)开始,首先删除一些“不重要的”权值(向量中的条目),然后对模型进行重新训练。经过多次删除和再训练后,剪枝过程输出一个剪枝模型(一个更小的向量)。然而,我们通过解决以下两个关键问题来攻击传统剪枝:
*重要性的判断是局部的。通常的方法是在每个剪枝步骤确定权重的重要性,例如,通过它们的大小[11]。但是,由于权值之间的关联非常复杂,权值的重要性在剪枝过程中可能会发生很大的变化,即重要性只是一个局部判断,也就是说,此时重要性较低的权值可能会在未来变得更重要。
*一旦被修剪,就没有机会再回来。如果我们将剪枝问题视为权值[24]的l0优化问题,图1(a)和(b)中的剪枝过程会缩小优化域(剪枝后的权值没有机会返回);因此,优化过程没有机会逃离局部最小值1。
考虑到这些问题,本文在剪枝过程中引入了随机优化技术。在每个剪枝步骤中,我们首先以一定的概率删除不重要的权值,命名为drop away,这有助于避免全局重要权值的删除。然后,我们还以一定的概率从删除的权值中恢复一些权值,即drop back,帮助它重新加载被删除的全局重要权值。我们将我们的方法命名为Drop Pruning,因为优化剪枝过程的关键步骤是Drop策略。例如,如图1(a)和©所示,在第二个剪枝步骤中,我们丢弃了权值{4,5},将权值{2}放回;在第三个剪枝步骤中,我们丢弃了权值{1,3},将权值{4}放回。最后,与图1(a)和(b)中的传统剪枝过程相比,Drop Pruning也输出了只有2个权值但位置不同的剪枝模型。与贝叶斯训练方法[16,21,4,8]在精简模型上进行随机训练不同,Drop pruning直接进行随机修剪,可以帮助模型流向更简单的网络。
我们使用MNIST和CIFAR-10数据集在LeNet和类vgg架构上演示了Drop Pruning的性能。实验表明,与传统剪枝方法相比,drop away和drop back具有个体贡献。此外,与相关的权值剪枝和贝叶斯训练方法相比,Drop Pruning还可以获得具有竞争力的压缩和精度性能。该方法为模型压缩研究提供了新的思路。

3. Related work

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值