Data-Driven Sparse Structure Selection for Deep Neural Networks 论文翻译

摘要
深度卷积神经网络在各种任务中已经展现出其非同凡响的效果。然而,由于其很高的计算复杂度,将最先进的模型部署到现实应用中任然是很具有挑战性的。如何在没有大量实验和专家知识的情况下设计一个紧凑而有效的网络?在本文中,我们提出了一种简单有效的框架,以端对端的方式学习和修剪深度模型。

在我们的框架中,首先引入了一种新的参数缩放因子来缩放特定结构的输出,如神经元,组或残差块。然后我们对这些因素加上稀疏正则化,并通过改进的随机加速近似梯度(APG)方法来解决这个优化问题。通过将某些因素强制为零,我们可以安全地删除相应的结构,从而修剪CNN的不重要部分。与可能需要数千次试验或迭代微调的其他结构选择方法相比,在一次没有别的什么华而不实的训练中(这句有点儿纠结,大概意思差不多),我们的方法得到了充分地端到端的训练。我们评估我们的方法,用两种最先进的CNN ResNet和ResNeXt进行稀疏结构选择,用自适应深度和宽度选择展现出了非常满意的效果。

1 Introduction
深度学习方法,特别是卷积神经网络(CNN)在计算机视觉,自然语言处理和语音识别等许多领域取得了显着的效果。然而,这些非凡的表现是以高的计算和存储需求为代价的。虽然现代GPU在过去几年中的实力已经飞涨,但是这些高成本仍然令CNN无法部署在延迟关键应用中,例如自动驾驶汽车和增强现实(AR)等。

近来,已经提出了在推理时加速CNN的大量工作。加速预训练模型的方法主要有直接修剪[1,2],低阶分解[4,5,6]和量化[7,8,9]。另一个研究流派直接训练了小型高效网络,如知识提取[10,11,12],新颖的架构设计[13,14,15]和稀疏学习[16,17,18,19]。其中,基于稀疏的方法引起了更多的关注。先前的工作[16]追求了权重的稀疏。然而,非结构稀疏性仅产生随机连接性,并且几乎不能利用当前现有的诸如GPU的硬件来在系统时间内加速模型推理。 为了解决这个问题,最近的方法[17,18,19]提出应用组稀疏性来保留硬件友好的CNN结构。

在本文中,我们再来看一下CNN的学习和修剪。首先,我们引入一种新型的参数缩放因子,其在CNN中缩放某些特定结构(例如,神经元,组或块)的输出。这些缩放因子使得具有很少参数的CNN具有更大的灵活性。然后,我们在这些缩放因子上增加稀疏正则化,使它们在训练期间为0。最后,我们可以安全地删除相当于零缩放因子的结构,并获得修剪的模型。与直接修剪方法相比,这种方法是数据驱动和完全端到端的。换句话说,网络可以根据每个任务的难度和需求来选择其独特的配置。 此外,模型选择与CNN的正常训练联合完成。 我们不需要额外的微调或多阶段优化,而且只会在训练中引入少量代价。

总而言之,我们的贡献有以下三个方面:
·我们为CNN模型训练和剪枝提出了一个统一的框架。特别地,我

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值