Like What You Like: Knowledge Distill via Neuron Selectivity Transfer 论文翻译

摘要 尽管深度神经网络已经在各种各样的应用中表现出非凡的效果,但是其优越的性能是以高存储和计算成本为代价的。因此,神经网络的加速和压缩近来引起了人们极大的关注。知识迁移(KT),旨在通过从较大的教师模型迁移知识来训练一个较小的学生网络,是流行的解决方案之一。在本文中,我们通过将其视为一个分布匹配问题来提出一个新的知识迁移方法。特别地,我们匹配教师和学生网络之间的神经元选择性模式的分布。为了实现这一
摘要由CSDN通过智能技术生成

摘要
尽管深度神经网络已经在各种各样的应用中表现出非凡的效果,但是其优越的性能是以高存储和计算成本为代价的。因此,神经网络的加速和压缩近来引起了人们极大的关注。知识迁移(KT),旨在通过从较大的教师模型迁移知识来训练一个较小的学生网络,是流行的解决方案之一。在本文中,我们通过将其视为一个分布匹配问题来提出一个新的知识迁移方法。特别地,我们匹配教师和学生网络之间的神经元选择性模式的分布。为了实现这一目标,我们通过最小化这些分布之间的最大平均差异(MMD)度量来设计新的KT损失函数。结合原来的损失函数,我们的方法可以显著地提高学生网络的性能。我们在几个数据集上验证了我们方法的有效性,并进一步将其与其它KT方法结合起来探索最好的结果。

1 Introduction
近年来,深度神经网络已经更新了计算机视觉和神经语言处理等各个领域的最先进的表现。一般来说,给予足够的数据,更深层次和更广泛的网络将会实现比浅层网络更好的性能。然而,这些越来越大的网络也带来了高的计算和内存成本。将这些最先进的模型部署到实时应用中仍然是一个很大的问题。

这个问题激发了人们对神经网络加速和压缩的研究。近几年来,在这一领域已经做出了广泛的工作。这些尝试可以大致分为三种类型:网络剪枝[1,2,3],网络量化[4,5]和知识迁移(KT)[6,7,8,9,10,11,12]。网络修剪基于一些标准,迭代地修剪不重要的神经元或权重,而网络量化尝试降低权重或特征的精度。然而,值得注意的是,大多数这些方法(除了神经元修剪)不能充分利用现代GPU和深度学习框架。他们的加速需要特定的硬件或实现。相比之下,基于KT的方法直接训练了一个较小的学生网络,这样可以加速原始网络+ in terms of wall time without bells and whistles(后面太纠结不知道怎么翻译,这句意思就是加速了原始网络)。

据我们所知,KT的最早的工作可以追溯到[6]。他们训练了一个压缩模型,其中伪数据由强分类器的集合标记。然而,他们的工作仅限于浅层模型。直到最近,Hinton等人通过引入知识提取(KD)[7]将其带回来。KD的基本思想是通过软化softmax学习教师输出的类分布,将知识从大型教师模型中提取出来,形成一个小型的教学模型。尽管KD简单,KD在各种图像分类任务中表现出很不错的结果。然而,KD只能用于具有softmax损失函数的分类任务。随后的一些工作[8,9,10]试图通过转换教师模型的中间表示来解决这个问题。

在这项工作中,我们探索出了教师模型中一种新的知识,并将其迁移给学生模型。具体来说,我们利用神经元的选择性知识。这个模型背后的直觉是相当简单的:每个神经元基本上从原始输入中提取与手头任务相关的某种模式。 因此,如果神经元在某些区域或样本中被激活,则这意味着这些区域或样本共享了可能与任务相关的一些常见属性。这样的聚类知识对于学生网络是有价值的,因为它为教师模型的最终预测提供了一个解释。因此,我们提出使学生模型和教师模型之间的神经元选择性知识的分布相一致。
我们的方法的说明如图1所示。 总而言之,这项工作的贡献如下:

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值