知识提炼:一项调查 Knowledge Distillation: A Survey

这里写自定义目录标题


原文地址:https://link.springer.com/article/10.1007/s11263-021-01453-z?utm_source=cnki&utm_medium=affiliate&utm_content=meta&utm_campaign=DDCN_1_GL01_metadata

抽象
近年来,深度神经网络在工业界和学术界都取得了成功,尤其是在计算机视觉任务方面。深度学习的巨大成功主要归功于其可扩展性,可以对大规模数据进行编码并操纵数十亿个模型参数。然而,在资源有限的设备(例如手机和嵌入式设备)上部署这些繁琐的深度模型是一项挑战,这不仅是因为计算复杂度高,而且存储需求很大。为此,已经开发了各种模型压缩和加速技术。知识蒸馏作为模型压缩和加速的代表性类型,有效地从大型教师模型中学习小学生模型。它受到社会各界的日益关注。本文从知识范畴、培训方案、师生架构、提炼算法、性能比较和应用等角度对知识蒸馏进行了全面考察。此外,还简要回顾了知识蒸馏中的挑战,并讨论和转发了对未来研究的意见。

其他人正在查看的类似内容

使用相对表征进行知识提炼,用于图像表征学习
第2023章 ©

知识蒸馏中的共鸣现象——非强教师的学习学生
章节 © 2022

跟随你的道路:一种渐进式的知识蒸馏方法
第2021章 ©
1 介绍
在过去的几年里,深度学习一直是人工智能许多成功的基础,包括计算机视觉(Krizhevsky 等人,2012 年)、强化学习(Silver 等人,2016 年;Ashok 等人,2018 年;Lai 等人,2020 年)和自然语言处理(Devlin 等人,2019 年)。在许多最新技术的帮助下,包括残差连接(He 等人,2016 年,2020 年b)和批量归一化(Ioffe 和 Szegedy 2015 年),很容易在强大的 GPU 或 TPU 集群上训练具有数千层的非常深入的模型。例如,在具有数百万张图像的流行图像识别基准上训练 ResNet 模型只需不到十分钟(邓等人,2009 年;Sun 等人,2019 年);训练一个强大的 BERT 语言理解模型不超过一个半小时(Devlin 等人,2019 年;You 等人,2019 年)。大规模深度模型已经取得了压倒性的成功,然而,巨大的计算复杂性和海量存储需求使得将它们部署在实时应用程序中是一个巨大的挑战,特别是在资源有限的设备上,如视频监控和自动驾驶汽车。

图1
图1
知识提炼的通用师生框架

全尺寸图像
为了开发高效的深度模型,最近的工作通常集中在 1) 深度模型的高效构建块上,包括深度可分离卷积,如 MobileNets (Howard et al. 2017;Sandler 等人,2018 年)和 ShuffleNets(Zhang 等人,2018a;马 等人,2018 年);2)模型压缩和加速技术,分为以下类别(Cheng et al. 2018)。

参数修剪和共享:这些方法侧重于从深度神经网络中删除不必要的参数,而不会对性能产生任何显着影响。该类别进一步分为模型量化(Wu et al. 2016)、模型二值化(Courbariaux et al. 2015)、结构矩阵(Sindhwani et al. 2015)和参数共享(Han et al. 2015;Wang 等人,2019f)。

低秩分解:这些方法通过采用矩阵和张量分解来识别深度神经网络的冗余参数(Yu 等人,2017 年;Denton 等人,2014 年)。

转移紧凑卷积滤波器:这些方法通过传输或压缩卷积滤波器来删除不必要的参数(Zhai 等人,2016 年)。

知识蒸馏(KD):这些方法将知识从较大的深度神经网络提炼成一个小网络(Hinton 等人,2015 年)。

对模型压缩和加速的全面回顾超出了本文的讨论范围。本文的重点是知识蒸馏,近年来越来越受到研究界的关注。大型深度神经网络以良好的性能取得了显著的成功,尤其是在具有大规模数据的真实场景中,因为过度参数化提高了考虑新数据时的泛化性能(Zhang et al. 2018;Brutzkus 和 Globerson 2019;Allen-Zhu 等人,2019 年;Arora 等人,2018 年;Tu 等人,2020 年)。然而,由于设备的计算能力和内存有限,在移动设备和嵌入式系统中部署深度模型是一个巨大的挑战。为了解决这个问题,Bucilua等人(2006)首先提出了模型压缩,将信息从大型模型或模型集合转移到训练小型模型中,而不会显着降低准确性。从大模型中学习小模型后来被正式推广为知识蒸馏(Hinton 等人,2015 年)。在知识蒸馏中,小学生模型通常由大教师模型监督(Bucilua et al. 2006;Ba 和 Caruana 2014;Hinton 等人,2015 年;Urban 等人,2017 年)。主要思想是学生模型模仿教师模型,以获得竞争甚至卓越的表现。关键问题是如何将知识从大型教师模式转移到小型学生模式。基本上,知识蒸馏系统由三个关键组件组成:知识、蒸馏算法和师生架构。知识蒸馏的一般师生框架如图所示。1.

图2
图2
知识蒸馏的示意图结构和相邻部分之间的关系。本调查的主体主要包括知识蒸馏的基础知识、知识类型、蒸馏方案、师生架构、蒸馏算法、性能比较、应用、讨论、挑战和未来方向。请注意,在此图中,“Section”缩写为“Sec.”

全尺寸图像
尽管在实践中取得了巨大成功,但关于知识蒸馏的理论或实证理解的著作并不多(Cheng et al. 2020;Phuong 和 Lampert 2019a;Cho 和 Hariharan 2019 年)。具体来说,为了理解知识蒸馏的工作机制,Phuong & Lampert在深度线性分类器的场景中获得了与学习蒸馏学生网络快速收敛绑定的泛化理论依据(Phuong and Lampert 2019a)。这个理由回答了学生学习的内容和速度,并揭示了决定蒸馏成功的因素。成功的蒸馏依赖于数据几何形状、蒸馏目标的优化偏差和学生分类器的强单调性。Cheng 等人量化了从深度神经网络的中间层提取视觉概念,以解释知识蒸馏(Cheng 等人,2020 年)。Ji和Zhu(2020)从风险边界、数据效率和不完善教师等方面对广神经网络上的知识提炼进行了理论解释。Cho & Hariharan 实证详细分析了知识蒸馏的功效(Cho 和 Hariharan 2019)。实证结果表明,由于模型能力差距,更大的模型可能不是更好的教师(Mirzadeh 等人,2020 年)。实验还表明,蒸馏会对学生的学习产生不利影响。Cho 和 Hariharan (2019) 没有涵盖对不同形式的关于知识、提炼和师生之间相互感情的知识蒸馏的实证评估。还探索了知识蒸馏用于标签平滑、评估教师的准确性以及获得最佳输出层几何形状的先验(Tang 等人,2020 年)。

模型压缩的知识蒸馏类似于人类的学习方式。受此启发,最近的知识蒸馏方法已扩展到师生学习(Hinton et al. 2015)、相互学习(Zhang et al. 2018b)、助教(Mirzadeh et al. 2020)、终身学习(Zhai et al. 2019)和自学(Yuan et al. 2020)。知识蒸馏的大多数扩展都集中在压缩深度神经网络上。由此产生的轻量级学生网络可以很容易地部署在视觉识别、语音识别和自然语言处理 (NLP) 等应用中。此外,在知识蒸馏中,从一个模型到另一个模型的知识转移可以扩展到其他任务,例如对抗性攻击(Papernot et al. 2016)、数据增强(Lee et al. 2019a;Gordon and Duh 2019)、数据隐私和安全(Wang et al. 2019a)。在模型压缩知识蒸馏的推动下,知识转移的思想被进一步应用于训练数据的压缩,即数据集蒸馏,即将知识从大数据集转移到小数据集中,以减少深度模型的训练负荷(Wang et al. 2018c;Bohdal 等人,2020 年)。

图3
图3
深度教师网络中基于响应的知识、基于特征的知识和基于关系的知识的来源示意图

全尺寸图像
在本文中,我们对知识蒸馏进行了全面的调查。本调查的主要目标是 1) 提供知识蒸馏的概述,包括几个典型的知识、蒸馏和架构;2)回顾知识提炼的最新进展,包括算法和在不同现实世界场景中的应用;3)解决一些障碍,并基于知识转移的不同角度,包括不同类型的知识、培训方案、提炼算法和结构以及应用,为知识蒸馏提供见解。最近,也有类似的关于知识蒸馏的调查(Wang and Yoon.2020),从不同角度呈现了师生视觉学习的全面进展及其挑战。与王和尹不同。(2020),我们的调查主要从知识类型、蒸馏方案、蒸馏算法、性能比较和不同应用领域等广大角度关注知识蒸馏。

本文的组织如图所示。2.不同种类的知识和蒸馏在章节中总结。分别为 2 和 3。关于知识蒸馏中师生结构的现有研究见本章。4. 最新的知识蒸馏方法在本节中进行了全面总结。5.知识蒸馏的性能比较见第5节。6. 知识蒸馏的许多应用在本节中进行了说明。7. 讨论了知识蒸馏中的挑战性问题和未来方向,并给出了结论。8.

阿拉伯数字 知识
在知识蒸馏中,知识类型、蒸馏策略和师生结构在学生学习中起着至关重要的作用。在本节中,我们将重点介绍用于知识提炼的不同类别的知识。香草知识蒸馏使用大型深度模型的对数作为教师知识(Hinton 等人,2015 年;Kim 等人,2018 年;Ba 和 Caruana 2014;Mirzadeh 等人,2020 年)。中间层的激活、神经元或特征也可以用作指导学生模型学习的知识(Romero 等人,2015 年;Huang 和 Wang 2017;Ahn 等人,2019 年;Heo 等人,2019c;Zagoruyko 和 Komodakis 2017)。不同激活、神经元或样本对之间的关系包含教师模型学习的丰富信息(Yim 等人,2017 年;Lee 和 Song 2019;Liu 等人,2019g;Tung 和 Mori 2019;Yu 等人,2019 年)。此外,教师模型的参数(或层与层之间的联系)还包含另一种知识(Liu et al. 2019c)。我们将讨论以下类别的不同形式的知识:基于响应的知识、基于特征的知识和基于关系的知识。图中显示了教师模型中不同知识类别的直观示例。3.

2.1 基于响应的知识
图4
图4
基于通用响应的知识蒸馏

全尺寸图像
图5
图5
基准知识蒸馏的具体架构(Hinton et al. 2015)

全尺寸图像
基于响应的知识通常是指教师模型的最后一个输出层的神经反应。主要思想是直接模仿教师模型的最终预测。基于响应的知识蒸馏对于模型压缩简单而有效,并已广泛应用于不同的任务和应用中。给定一个 logits z 向量作为深度模型最后一个全连接层的输出,基于响应的知识的蒸馏损失可以表述为

L R e s D ( z t , z s ) = L R ( z t , z s ), \begin{aligned} L_{ResD}(z_{t}, z_{s})={\mathcal {L}}_{R}(z_{t}, z_{s}) , \end{aligned} LResDztzs=LRztzs), (1)
其中 \({\mathcal {L}}{R}(.)\) 表示 logit 的发散损失,\(z{t}\) 和 \(z_{s}\) 分别是 teacher 和 student 的 logit。典型的基于响应的KD模型如图所示。4. 基于响应的知识可用于不同类型的模型预测。例如,对象检测任务中的响应可能包含logits以及边界框的偏移量(Chen et al. 2017)。在语义地标定位任务中,例如,人类姿态估计,教师模型的响应可能包括每个地标的热图(Zhang et al. 2019a)。最近,人们进一步探索了基于响应的知识,以将地面实况标签的信息作为条件目标(Meng et al. 2019)。

最流行的基于响应的图像分类知识被称为软目标(Hinton 等人,2015 年;Ba 和 Caruana 2014)。具体来说,软目标是输入属于类的概率,可以通过 softmax 函数估计为

p ( z i , T ) = exp ⁡ ( z i / T ) ∑ j exp ⁡ ( z j / T ) , \begin{aligned} p(z_{i},T)=\frac{\exp (z_{i}/{T})}{\sum _{j}\exp (z_{j}/{T})} , \end{aligned} pziT=jexpzj/Texpzi/T (2)
其中 \(z_i\) 是第 i 类的 logit,并引入温度因子 T 来控制每个软目标的重要性。正如Hinton等人(2015)所述,软目标包含来自教师模型的信息性暗知识。因此,软对数的蒸馏损失可以改写为

L R e s D ( p ( z t , T ), p ( z s , T )) = L R ( p ( z t , T ), p ( z s , T )) . \begin{aligned} L_{ResD}(p(z_{t},T), p(z_{s},T))={\mathcal {L}}_{R}(p(z_{t},T), p(z_{s},T)) .\end{aligned} LResDpztT),pzsT))=LRpztT),pzsT)). (3)
通常,\({\mathcal {L}}{R}(p(z{t},T), p(z_{s},T))\) 通常采用 Kullback-Leibler 发散损失。显然,优化方程(1)或(3)可以使学生的对数\(z_{s}\)与教师的对数\(z_{t}\)匹配。为了便于理解基于响应的知识蒸馏,图中给出了香草知识蒸馏的基准模型,该模型是蒸馏和学生损失的联合。5. 请注意,学生损失始终定义为真实标签和学生模型的软对数之间的交叉熵损失 \({\mathcal {L}}{CE}(y,p(z{s}, T=1)))\)。

表1 基于特征的知识总和
全尺寸表格
基于响应的知识的概念简单明了,易于理解,尤其是在“暗知识”的背景下。从另一个角度来看,软目标的有效性类似于标签平滑(Kim and Kim 2017)或正则化器(Muller et al. 2019;Ding 等人,2019 年)。然而,基于响应的知识通常依赖于最后一层的输出,例如软目标,因此无法解决教师模型的中级监督问题,这对于使用非常深的神经网络进行表征学习非常重要(Romero 等人,2015 年)。由于软对数实际上是类概率分布,因此基于响应的知识蒸馏也仅限于监督学习。

图6
图6
基于通用特征的知识蒸馏

全尺寸图像
2,2 基于特征的知识
深度神经网络擅长学习抽象程度越来越高的多层次特征表示。这被称为表征学习(Bengio et al. 2013)。因此,最后一层的输出和中间层的输出,即特征图,都可以作为监督学生模型训练的知识。具体来说,来自中间层的基于特征的知识是基于响应的知识的良好扩展,特别是对于更薄和更深的网络的训练。

中间表示首先在 Fitnets 中引入(Romero 等人,2015 年),以提供提示脚注1改进学生模型的培训。主要思想是直接匹配教师和学生的功能激活。受此启发,已经提出了各种其他方法来间接匹配特征(Zagoruyko 和 Komodakis 2017;Kim 等人,2018 年;Heo 等人,2019c;Passban 等人,2021 年;Chen 等人,2021 年;Wang 等人,2020b)。具体来说,Zagoruyko和Komodakis(2017)从原始特征图中推导出了一个“注意力图”来表达知识。Huang 和 Wang (2017) 使用神经元选择性转移推广了注意力图。Passalis和Tefas(2018)通过匹配特征空间中的概率分布来转移知识。为了更容易传授教师知识,Kim等人(2018)引入了所谓的“因素”,作为一种更易于理解的中间表示形式。为了缩小师生之间的表现差距,Jin等人(2019)提出了路线约束提示学习,即通过教师提示层的输出来监督学生。最近,Heo等人(2019c)提出使用隐藏神经元的激活边界进行知识转移。有趣的是,教师模型中间层的参数共享以及基于响应的知识也被用作教师知识(周 et al. 2018)。为了匹配教师和学生之间的语义,Chen et al. (2021) 提出了跨层知识蒸馏,通过注意力分配自适应地为每个学生层分配适当的教师层。

通常,基于特征的知识转移的蒸馏损失可以表述为:

KaTeX parse error: Invalid delimiter '(' after '\big' at position 30: …} L_{FeaD}\big (̲f_{t}(x), f_{s}… (4)
其中\(f_{t}(x)\)和\(f_{s}(x)\)分别是教师模型和学生模型中间层的特征图。当教师和学生模型的特征图形状不同时,通常应用变换函数 \(\varPhi {t}(f{t}(x))\) 和 \(\varPhi {s}(f{s}(x))\)。\({\mathcal {L}}{F}(.)\) 表示用于匹配师生模型特征图的相似度函数。基于一般特征的KD模型如图所示。6. 我们还从特征类型、源层和蒸馏损失的角度总结了表 1 中不同类型的基于特征的知识。具体来说,\({\mathcal {L}}{2}(.)\), \({\mathcal {L}}{1}(.)\), \({\mathcal {L}}{CE}(.)\) 和 \({\mathcal {L}}{MMD}(.)\) 分别表示 \(l{2}\)-范数距离、\(l_{1}\)-范数距离、交叉熵损失和最大平均差异损失。尽管基于特征的知识转移为学生模型的学习提供了有利的信息,但如何有效地选择教师模型中的提示层和学生模型中的引导层仍有待进一步研究(Romero et al. 2015)。由于提示层和引导层的大小之间存在显著差异,因此还需要探索如何正确匹配教师和学生的特征表示。

2,3 基于关系的知识
基于响应的知识和基于特征的知识都使用教师模型中特定层的输出。基于关系的知识进一步探索不同层或数据样本之间的关系。

为了探索不同特征图之间的关系,Yim等人(2017)提出了一种解过程流(FSP),它由两层之间的Gram矩阵定义。FSP 矩阵总结了特征图对之间的关系。它是使用两层特征之间的内积计算得出的。利用特征图之间的相关性作为提炼知识,提出通过奇异值分解进行知识提炼来提取特征图中的关键信息(Lee et al. 2018)。为了利用来自多个教师的知识,Zhang和Peng(2018)分别使用每个教师模型的logits和特征作为节点,形成了两个图。具体来说,在知识转移之前,通过logits和表示图对不同教师的重要性和关系进行建模(Zhang and Peng 2018)。Lee和Song(2019)提出了基于多头图的知识蒸馏。图知识是通过多头注意力网络在任意两个特征图之间的数据内关系。为了探索成对提示信息,学生模型还模仿了来自教师模型成对提示层的相互信息流(Passalis 等人,2020b)。一般而言,基于特征图关系的基于关系的知识的蒸馏损失可以表述为

KaTeX parse error: Invalid delimiter '(' after '\bigg' at position 68: …}_{R^{1}}\bigg (̲\varPsi _{t}\le… (5)
其中\(f_{t}\)和\(f_{s}\)分别是教师模型和学生模型的特征图。从教师模型 \({\hat{f}}{t}\) 和 \({\check{f}}{t}\) 以及学生模型 \({\hat{f}}{s}\) 和 \({\check{f}}{s}\) 中选择成对的特征图。\(\varPsi _{t}(.)\) 和 \(\varPsi {s}(.)\) 是来自教师和学生模型的成对特征图的相似性函数。\({\mathcal {L}}{R^{1}}(.)\) 表示教师和学生特征图之间的相关函数。

传统的知识转移方法往往涉及个人知识的提炼。教师的个人软目标直接提炼到学生身上。事实上,提炼的知识不仅包含特征信息,还包含数据样本的相互关系(You et al. 2017;Park 等人,2019 年)。具体而言,Liu等人(2019g)提出了一种通过实例关系图的鲁棒有效的知识蒸馏方法。实例关系图中传递的知识包含实例特征、实例关系和跨层特征空间变换。Park et al. (2019) 提出了一种关系知识蒸馏,它从实例关系中转移知识。基于流形学习的思想,通过特征嵌入来学习学生网络,在教师网络的中间层中保留了样本的特征相似性(Chen et al. 2021)。使用数据的特征表示将数据样本之间的关系建模为概率分布(Passalis 和 Tefas 2018;Passalis 等人,2020a)。教师和学生的概率分布与知识转移相匹配。(Tung and Mori 2019)提出了一种保持相似性的知识蒸馏方法。特别是,由教师网络中输入对的相似激活产生的相似性保持知识被转移到学生网络中,并保留了成对的相似性。Peng等人(2019a)提出了一种基于相关性同余的知识蒸馏方法,其中提炼的知识既包含实例级信息,也包含实例之间的相关性。使用用于蒸馏的相关性同余,学生网络可以学习实例之间的相关性。

图7
图7
基于关系的通用实例知识蒸馏

全尺寸图像
如上所述,基于实例关系的基于关系的知识的蒸馏损失可以表述为

KaTeX parse error: Invalid delimiter '(' after '\big' at position 68: …}}_{R^{2}}\big (̲\psi _{t}(t_{i}… (6)
其中 \((t_{i},t_{j})\in F_{t}\) 和 \((s_{i},s_{j})\in F_{s}\) 和 \(F_{t}\) 和 \(F_{s}\) 分别是来自教师和学生模型的特征表示集。\(\psi {t}(.)\) 和 \(\psi {s}(.)\) 是 \((t{i},t{j})\) 和 \((s_{i},s_{j})\) 的相似度函数。\({\mathcal {L}}_{R^{2}}(.)\) 是教师和学生特征表示之间的相关函数。典型的基于实例关系的KD模型如图所示。7.

表2 基于关系的知识汇总
全尺寸表格
提炼知识可以从不同的角度进行分类,例如数据的结构化知识(Liu et al. 2019g;Chen 等人,2021 年;Peng 等人,2019a;Tung 和 Mori 2019;Tian 等人,2020 年),有关输入特征的特权信息(Lopez-Paz 等人,2016 年;Vapnik 和 Izmailov 2015)。表 2 总结了基于关系的知识的不同类别。具体来说,\({\mathcal {L}}{EM}(.)\), \({\mathcal {L}}{H}(.)\), \({\mathcal {L}}_{AW}(.)\) 和 \(\Vert .\Vert _{F}\) 分别是推地球距离、Huber 损失、角度损失和 Frobenius 范数。尽管最近提供了一些基于关系的知识,但如何将特征图或数据样本中的关系信息建模为知识仍然值得进一步研究。

3 蒸馏方案
在本节中,我们将讨论教师和学生模式的蒸馏方案(即培训方案)。根据教师模型是否与学生模型同步更新,知识蒸馏的学习方案可直接分为三大类:离线蒸馏、在线蒸馏和自蒸馏,如图所示。8.

图8
图8
不同的蒸馏。红色表示“预训练”表示在蒸馏之前学习网络,黄色表示“待训练”表示在蒸馏过程中学习网络

全尺寸图像
3,1 离线蒸馏
以前的大多数知识蒸馏方法都是离线工作的。在香草知识蒸馏(Hinton 等人,2015 年)中,知识从预先训练的教师模型转移到学生模型。因此,整个训练过程分为两个阶段,即:1)在蒸馏之前,首先对一组训练样本进行大型教师模型的训练;2)教师模型用于以logits或中间特征的形式提取知识,然后用于指导学生模型在蒸馏过程中的训练。

离线蒸馏的第一阶段通常不作为知识蒸馏的一部分进行讨论,即假设教师模型是预定义的。很少关注教师模型结构及其与学生模型的关系。因此,离线方法主要侧重于改进知识转移的不同部分,包括知识的设计(Hinton et al. 2015;Romero et al. 2015) 和用于匹配特征或分布匹配的损失函数 (Huang and Wang 2017;Passalis 和 Tefas 2018;Zagoruyko 和 Komodakis 2017;Mirzadeh 等人,2020 年;Li 等人,2020d;Heo 等人,2019b;Asif 等人,2020 年)。离线方法的主要优点是它们简单易行。例如,教师模型可能包含一组使用不同软件包训练的模型,这些软件包可能位于不同的机器上。这些知识可以被提取并存储在缓存中。

离线蒸馏方法通常采用单向知识转移和两阶段培训程序。然而,训练时间巨大的复杂大容量教师模式是无法避免的,而学生模式的线下蒸馏训练在教师模式的指导下通常是高效的。此外,大教师和小学生之间的能力差距始终存在,学生往往在很大程度上依赖教师。

3,2 在线蒸馏
尽管离线蒸馏方法简单有效,但离线蒸馏中的一些问题引起了研究界的日益关注(Mirzadeh 等人,2020 年)。为了克服离线蒸馏的局限性,提出了在线蒸馏以进一步提高学生模型的性能,尤其是在没有大容量高绩效教师模型的情况下(Zhang et al. 2018b;Chen 等人,2020a)。在在线蒸馏中,教师模型和学生模型同时更新,整个知识蒸馏框架是端到端可训练的。

已经提出了各种在线知识蒸馏方法,尤其是在最近几年(Zhang et al. 2018b;Chen 等人,2020a;Xie 等人,2019 年;Anil 等人,2018 年;Kim 等人,2019b;周 等人,2018 年;Walawalkar 等人,2020 年;吴和龚 2021;Zhang 等人,2021a)。具体来说,在深度互学中(Zhang et al. 2018b),多个神经网络以协作方式工作。在培训过程中,任何一个网络都可以是学生模型,而其他模型可以是老师。为了提高泛化能力,通过使用软对数集成来扩展深度互学(Guo et al. 2020)。Chen et al. (2020a) 进一步将辅助同伴和组长引入深度相互学习,形成一套多样化的同伴模型。为了降低计算成本,Zhu和Gong(2018)提出了一种多分支架构,其中每个分支表示一个学生模型,不同的分支共享相同的骨干网络。Kim et al. (2019b) 没有使用 logit 集合,而是引入了一个特征融合模块来构建教师分类器。Xie et al. (2019) 用廉价的卷积运算取代了卷积层,形成了学生模型。Anil等人(2018)采用在线蒸馏来训练大规模分布式神经网络,并提出了一种称为共蒸馏的在线蒸馏变体。并行共蒸馏训练具有相同架构的多个模型,任何一个模型都是通过从其他模型转移知识来训练的。最近,提出了一种在线对抗性知识蒸馏方法,利用来自类概率和特征图的知识,由判别器同时训练多个网络(Chung et al. 2020)。对抗性共蒸馏最近是通过使用 GAN 生成不同的示例来设计的(Zhang 等人,2021a)。

在线蒸馏是一种具有高效并行计算的单阶段端到端训练方案。然而,现有的在线方法(例如,相互学习)通常无法解决在线环境中的高能力教师问题,因此进一步探索在线环境中师生模式之间的关系是一个有趣的话题。

3,3 自蒸馏
在自我蒸馏中,教师和学生模型使用相同的网络(Zhang et al. 2019b;Hou 等人,2019 年;Zhang 和 Sabuncu 2020;Yang 等人,2019b;Lee 等人,2019a;Phuong 和 Lampert,2019b;Lan 等人,2018 年;Xu 和 Liu 2019;Mobahi 等人,2020 年)。这可以看作是在线蒸馏的一个特例。具体来说,Zhang等人(2019b)提出了一种新的自蒸馏方法,其中来自网络较深部分的知识被提炼到其浅层部分。与Zhang等人(2019b)中的自蒸馏类似,提出了一种用于泳道检测的自注意力蒸馏方法(Hou等人,2019)。该网络利用其自身层的注意力图作为其下层的蒸馏目标。快照蒸馏(Yang et al. 2019b)是自我蒸馏的一种特殊变体,其中网络早期时期(教师)的知识被转移到其后期(学生)中,以支持同一网络内的监督培训过程。为了进一步减少早期退出的推理时间,Phuong 和 Lampert (2019b) 提出了基于蒸馏的训练方案,其中早期退出层试图在训练期间模仿后期退出层的输出。最近,Mobahi 等人 (2020) 对自蒸馏进行了理论分析,并在 Zhang 和 Sabuncu (2020) 中通过实验证明了其性能的提高。

此外,最近提出了一些有趣的自蒸馏方法(Yuan et al. 2020;Yun 等人,2020 年;Hahn 和 Choi 2019)。具体来说,Yuan等人提出了基于标签平滑正则化分析的无教师知识蒸馏方法(Yuan et al. 2020)。Hahn 和 Choi 提出了一种新的自我知识蒸馏方法,其中自我知识由预测概率组成,而不是传统的软概率(Hahn 和 Choi 2019)。这些预测概率由训练模型的特征表示定义。它们反映了特征嵌入空间中数据的相似性。Yun 等人提出了逐类自我知识蒸馏,以匹配训练模型在具有相同模型的同一来源内的类内样本和增强样本之间的输出分布(Yun 等人,2020 年)。此外,Lee等人(2019a)提出的自蒸馏被用于数据增强,并将增强的自知提炼到模型本身中。还采用自蒸馏来逐一优化具有相同架构的深度模型(教师或学生网络)(Furlanello 等人,2018 年;Bagherinezhad 等人,2018 年)。每个网络都使用师生优化来提炼前一个网络的知识。

此外,线下、线上和自我蒸馏也可以从人类师生学习的角度直观地理解。离线蒸馏意味着知识渊博的老师教给学生知识;在线蒸馏是指教师和学生一起学习;自我蒸馏意味着学生自学知识。而且,就像人类的学习一样,这三种蒸馏法由于自身的优势,可以结合在一起,相辅相成。例如,自蒸馏和在线蒸馏都通过多重知识转移框架正确集成(Sun 等人,2021 年)。

4 师生建筑
在知识蒸馏中,师生架构是形成知识转移的通用载体。换言之,从教师到学生的知识获取和提炼的质量,也取决于如何设计教师和学生网络。在人类学习习惯方面,我们希望学生能找到合适的老师。因此,要想在知识蒸馏中很好地完成知识的获取和提炼,如何选择或设计适当的师生结构是非常重要但又困难的问题。最近,教师和学生的模型设置在蒸馏过程中几乎是预先固定的,大小和结构不变,容易造成模型容量缺口。然而,如何特别设计教师和学生的架构,以及为什么他们的架构是由这些模型设置决定的,几乎是缺失的。在本节中,我们将讨论教师模型和学生模型的结构之间的关系,如图所示。9.

图9
图9
师生模式的关系

全尺寸图像
在Hinton等人(2015)中,知识蒸馏以前被设计用于压缩深度神经网络的集合。深度神经网络的复杂性主要来自两个维度:深度和宽度。通常需要将知识从更深和更宽的神经网络转移到更浅和更薄的神经网络(Romero 等人,2015 年)。学生网络通常被选为:(1)教师网络的简化版本,层数较少,每层通道数较少(Wang et al. 2018a;朱和龚 2018;Li 等人,2020d);或 (2) 保留网络结构的教师网络的量化版本(Polino 等人,2018 年;Mishra 和 Marr 2018;Wei 等人,2018 年;Shin 等人,2019 年);或 (3) 具有高效基本操作的小型网络(Howard 等人,2017 年;Zhang 等人,2018a;Huang 等人,2017 年);或(4)具有优化全球网络结构的小型网络(Liu et al. 2019i;Xie 等人,2020 年;Gu 和 Tresp 2020);或(5)与教师相同的网络(Zhang et al. 2018b;Furlanello 等人,2018 年;Tarvainen 和 Valpola 2017 年)。

大型深度神经网络和小型学生神经网络之间的模型容量差距会降低知识转移(Mirzadeh 等人,2020 年;Gao 等人,2021 年)。为了有效地将知识转移到学生网络,已经提出了多种方法来控制降低模型复杂性(Zhang et al. 2018b;诺瓦克和科索 2018;Crowley 等人,2018 年;Liu 等人,2019a,i; Wang 等人,2018a;Gu 和 Tresp 2020)。具体来说,Mirzadeh 等人(2020 年)引入了助教,以缩小教师模式和学生模式之间的培训差距。残差学习进一步缩小了差距,即助手结构用于学习残差(Gao 等人,2021 年)。另一方面,最近的几种方法也侧重于最小化学生模型和教师模型的结构差异。例如,Polino等人(2018)将网络量化与知识蒸馏相结合,即学生模型是教师模型的小型和量化版本。Nowak和Corso(2018)提出了一种结构压缩方法,该方法涉及将多层学到的知识转移到单层。Wang等人(2018a)在保留感受野的同时,逐步进行了从教师网络到学生网络的块状知识转移。在在线环境中,教师网络通常是学生网络的集合,其中学生模型彼此共享相似的结构(或相同的结构)(Zhang et al. 2018b;朱和龚 2018;Furlanello 等人,2018 年;Chen 等人,2020a)。

最近,深度可分离卷积已被广泛用于为移动或嵌入式设备设计高效的神经网络(Chollet 2017;Howard 等人,2017 年;Sandler 等人,2018 年;Zhang 等人,2018a;马 等人,2018 年)。受神经架构搜索(NAS)成功的启发,通过搜索基于高效元操作或块的全局结构,小型神经网络的性能得到了进一步提高(Wu et al. 2019;Tan 等人,2019 年;Tan 和 Le 2019;Radosavovic 等人,2020 年)。此外,动态搜索知识转移机制的想法也出现在知识蒸馏中,例如,使用强化学习以数据驱动的方式自动删除冗余层(Ashok et al. 2018),并在给定教师网络的情况下搜索最佳学生网络(Liu et al. 2019i;Xie 等人,2020 年;Gu 和 Tresp 2020)。

以前的大多数工作都侧重于设计教师和学生模型的结构或它们之间的知识转移方案。为了使小学生模型与大教师模型很好地匹配以提高知识蒸馏绩效,自适应师生学习架构是必要的。最近,知识蒸馏中的神经架构搜索,即在教师模型的指导下对学生结构和知识转移的联合搜索,将成为未来研究的一个有趣的课题。

5 蒸馏算法
知识转移的一个简单但非常有效的想法是直接匹配基于响应的知识,基于特征的知识(Romero et al. 2015;Hinton et al. 2015)或教师模型和学生模型之间的特征空间表示分布(Passalis and Tefas 2018)。已经提出了许多不同的算法来改进在更复杂的环境中转移知识的过程。在本节中,我们回顾了最近提出的知识蒸馏领域内知识转移的典型蒸馏方法类型。

5,1 对抗式蒸馏
在知识蒸馏中,教师模型很难完美地从真实的数据分布中学习。同时,学生模型的容量很小,因此无法准确模仿教师模型(Mirzadeh 等人,2020 年)。有没有其他方法可以训练学生模型以模仿教师模型?最近,对抗性学习因其在生成网络(即生成对抗网络或 GAN)中的巨大成功而受到广泛关注(Goodfellow 等人,2014 年)。具体来说,GAN中的鉴别器估计样本来自训练数据分布的概率,而生成器试图使用生成的数据样本来欺骗鉴别器。受此启发,提出了许多对抗性知识蒸馏方法,使教师和学生网络能够更好地理解真实的数据分布(Wang et al. 2018e;Xu 等人,2018a;Micaelli 和 Storkey 2019;Xu 等人,2018b;Liu 等人,2018 年;Wang 等人,2018f;Chen 等人,2019a;Shen 等人,2019d;Shu 等人,2019 年;Liu 等人,2020a;Belagiannis 等人,2018 年)。

图 10
图10
不同类别的主要对抗性蒸馏方法。 GAN中的生成器生成训练数据以提高KD性能;教师可能被用作鉴别者。b GAN中的鉴别器确保学生(也作为生成器)模仿教师。c 教师和学生组成发电机;鉴别器增强了在线知识蒸馏

全尺寸图像
如图所示。10、基于对抗性学习的蒸馏方法,特别是那些使用GANs的方法,可分为以下三大类。在第一类中,对抗生成器被训练以生成合成数据,这些数据要么直接用作训练数据集(Chen et al. 2019a;Ye et al. 2020) 或用于增强训练数据集 (Liu et al. 2018),如图 1 所示。10一个。此外,Micaelli 和 Storkey (2019) 利用对抗生成器生成知识转移的硬示例。通常,这种基于 GAN 的 KD 类别中使用的蒸馏损失可以表述为

KaTeX parse error: Invalid delimiter '(' after '\big' at position 47: …l {L}}_{G}\big (̲F_{t}(G(z)), F_… (7)
其中 \(F_{t}(.)\) 和 \(F_{s}(.)\) 分别是教师模型和学生模型的输出。G(z) 表示给定随机输入向量 z 的生成器 G 生成的训练样本,\({\mathcal {L}}_{G}\) 是蒸馏损失,用于强制匹配预测概率分布和真值概率分布,例如交叉熵损失或 Kullback-Leibler (KL) 散度损失。

为了使学生与教师匹配良好,引入了第二类判别器,通过使用logits(Xu et al. 2018a, b)或特征(Wang et al. 2018f)将样本与学生和教师模型区分开来,如图所示。10b. 具体而言,Belagiannis 等人(2018 年)使用未标记的数据样本来形成知识转移。Shen等人(2019d)使用了多个鉴别器。此外,Shu et al. (2019) 使用有效的中间监督,即挤压的知识来缓解教师和学生之间的能力差距。Wang等人(2018f)提出的代表性模型属于这一类,可以表述为

KaTeX parse error: Invalid delimiter '(' after '\big' at position 68: … {L}}_{CE}\big (̲G(F_{s}(x)),y\b… (8)
其中 G 是学生网络,\({\mathcal {L}}_{GAN}(.)\) 表示生成对抗网络中使用的典型损失函数,用于使学生和教师之间的输出尽可能相似。

在第三类中,对抗性知识蒸馏以在线方式进行,即教师和学生在每次迭代中共同优化(Wang et al. 2018e;Chung 等人,2020 年),如图所示。10摄氏度。此外,使用知识蒸馏来压缩 GAN,学习的小型 GAN 学生网络通过知识转移模仿较大的 GAN 教师网络(Aguinaldo 等人,2019 年;Li 等人,2020c)。

综上所述,从上述对抗性蒸馏方法中可以得出以下三个要点:GAN是通过教师知识转移增强学生学习能力的有效工具;GAN和KD联合可以生成有价值的数据,以提高KD性能并克服不可用和不可访问的数据的局限性;KD 可用于压缩 GAN。

5,2 多教师蒸馏
不同的教师架构可以为学生网络提供自己有用的知识。在培训学生网络期间,可以单独和集成地使用多个教师网络进行提炼。在典型的师生框架中,教师通常有一个大型模型或大型模型的集合。要从多位教师那里转移知识,最简单的方法是使用所有教师的平均反应作为监督信号(Hinton 等人,2015 年)。最近提出了几种多教师知识蒸馏方法(Sau and Balasubramanian 2016;You 等人,2017 年;Chen 等人,2019b;Furlanello 等人,2018 年;Yang 等人,2019a;Zhang 等人,2018b;Lee 等人,2019c;Park 和 Kwak 2020;Papernot 等人,2017 年;Fukuda 等人,2017 年;Ruder 等人,2017 年;Wu 等人,2019a;Yang 等人,2020c;Vongkulbhisal 等人,2019 年;Zhao 等人,2020a;Yuan 等人,2021 年)。多教师蒸馏的通用框架如图所示。11.

图 11
图11
多教师蒸馏的通用框架

全尺寸图像
事实证明,多个教师网络对于训练学生模型是有效的,通常使用logits和特征表示作为知识。除了所有教师的平均对数外,You等人(2017)还进一步纳入了中间层的特征,以鼓励不同训练样本之间的差异。为了同时利用logits和中间特征,Chen等人(2019b)使用了两个教师网络,其中一名教师将基于反应的知识传授给学生,另一名教师将基于特征的知识传授给学生。Fukuda等人(2017)在每次迭代中从教师网络池中随机选择一名教师。为了从多位教师那里转移基于特征的知识,在学生网络中添加了额外的教师分支,以模仿教师的中间特征(Park and Kwak 2020;Asif 等人,2020 年)。重生网络以循序渐进的方式处理多个教师,即 t 步的学生被用作 \({t+1}\) 步的学生的老师(Furlanello et al. 2018),类似的想法可以在 Yang et al. (2019a) 中找到。为了有效地进行知识转移并探索多个教师的力量,已经提出了几种替代方法,通过向给定教师添加不同类型的噪声来模拟多个教师(Sau and Balasubramanian 2016)或使用随机块和跳过连接(Lee et al. 2019c)。使用具有特征集合的多个教师模型,设计了知识融合(Shen et al. 2019a;Luo 等人,2019 年;Shen 等人,2019b;Luo 等人,2020 年)。通过知识融合,许多公共可用的训练有素的深度模型作为教师可以重复使用。更有趣的是,由于多教师蒸馏的特殊性,其扩展用于通过知识适应进行领域适应(Ruder et al. 2017),并保护数据的隐私和安全(Vongkulbhisal et al. 2019;Papernot 等人,2017 年)。

表3 使用不同类型知识和蒸馏方案的多教师蒸馏总结。基于响应的知识、基于特征的知识和基于关系的知识分别缩写为“ResK”、“FeaK”和“RelK”
全尺寸表格
表 3 总结了使用不同类型知识和蒸馏方案的典型多教师蒸馏方法。一般来说,由于不同教师的知识多样化,多教师知识提炼可以提供丰富的知识,并量身定制一个多才多艺的学生模式。然而,如何有效地整合来自多位教师的不同类型的知识需要进一步研究。

5,3 跨模式蒸馏
在训练或测试期间,某些模式的数据或标签可能不可用(Gupta 等人,2016 年;Garcia 等人,2018 年;Zhao 等人,2018 年;Roheda 等人,2018 年;Zhao 等人,2020b)。因此,在不同模式之间转移知识非常重要。本文综述了几种使用跨模态知识转移的典型场景。

Gupta等人(2016)使用一种新的模式(例如RGB图像)预先训练了具有大量注释良好的数据样本的教师模型,将知识从教师模型转移到学生模型中,并具有新的未标记输入模式,例如深度图像和光流。具体而言,所提出的方法依赖于涉及两种模态(即RGB和深度图像)的未标记配对样本。然后,教师从RGB图像中获得的特征用于学生的监督培训(Gupta等人,2016)。配对样本背后的想法是通过成对样本配准传输注释或标签信息,并已广泛用于跨模态应用(Albanie 等人,2018 年;Zhao 等人,2018 年;Thoker 和 Gall 2019)。为了通过墙壁或遮挡图像进行人体姿势估计,Zhao et al. (2018) 使用同步无线电信号和相机图像。知识通过多种模式进行传输,用于基于无线电的人体姿态估计。Thoker 和 Gall (2019) 从两种模态中获得了配对样本:RGB 视频和骨架序列。这些对用于将 RGB 视频上学到的知识转移到基于骨架的人类动作识别模型中。为了提高仅使用RGB图像的动作识别性能,Garcia等人(2018)对另一种模态(即深度图像)进行了跨模态蒸馏,以生成RGB图像模态的幻觉流。Tian et al. (2020) 引入了一种对比损失,以在不同模式之间转移成对关系。为了改进目标检测,Roheda 等人(2018 年)提议使用 GAN 在缺失和可用模型之间进行跨模态蒸馏。跨模式蒸馏的通用框架如图所示。12.

图例 12
图12
跨模式蒸馏的通用框架。为简单起见,仅显示两种模式

全尺寸图像
表4 跨模式蒸馏的总结,包括模式、知识类型和蒸馏
全尺寸表格
此外,Do et al. (2019) 提出了一种基于知识蒸馏的视觉问答方法,其中以图像-问题-答案为输入的三线性互动教师模型的知识被提炼为以图像-问题为输入的双线性互动学生模型的学习。Passalis和Tefas(2018)提出的概率知识蒸馏也用于从文本模态到视觉模态的知识转移。Hoffman等人(2016)提出了一种基于跨模态蒸馏的模态幻觉架构,以提高检测性能。此外,这些跨模型蒸馏方法还将知识在多个领域之间转移(Kundu 等人,2019 年;Chen 等人,2019c;Su 和 Maji 2017)。

表4总结了具有不同模式、知识类型和蒸馏方案的跨模式蒸馏。具体而言,可以看出,知识蒸馏在跨模态场景下的视觉识别任务中表现良好。然而,当存在模态差距时,跨模态知识转移是一项具有挑战性的研究,例如,不同模态之间缺乏配对样本。

5,4 基于图的蒸馏
大多数知识蒸馏算法侧重于将单个实例知识从教师转移到学生,而最近提出了一些使用图形探索数据内部关系的方法(Chen et al. 2021;Zhang 和 Peng 2018;Lee 和 Song 2019;Park 等人,2019 年;Yao 等人,2020 年;马和梅 2019;Hou 等人,2020 年)。这些基于图的提炼方法的主要思想是:1)使用图作为教师知识的载体;或2)使用图表来控制教师知识的信息传递。基于图形的蒸馏的通用框架如图所示。13. 如第13节所述。2.3,基于图的知识与基于关系的知识一致。在本节中,我们将介绍基于图的知识和基于图的消息传递蒸馏算法的典型定义。

具体来说,在Zhang和Peng(2018)中,每个顶点代表一个自我监督的教师。然后使用logits和中间特征(即logits图和表示图)构建两个图,将知识从多个自我监督的教师传递给学生。在Chen et al. (2021)中,该图用于维护高维空间中样本之间的关系。然后使用建议的局部保留损失函数进行知识转移。Lee and Song (2019) 使用多头图分析了数据内部关系,其中顶点是 CNN 中不同层的特征。 Park et al. (2019) 直接转移了数据样本的相互关系,即匹配教师图和学生图之间的边。Tung 和 Mori (2019) 使用相似性矩阵来表示教师和学生模型中输入对激活的相互关系。学生的相似度矩阵与教师的相似度矩阵相匹配。此外,Peng等人(2019a)不仅匹配了基于响应和基于特征的知识,还使用了基于图的知识。在Liu et al. (2019g)中,实例特征和实例关系分别建模为图的顶点和边。

图 13
图13
基于图的蒸馏的通用框架

全尺寸图像
有几种方法不是使用基于图的知识,而是使用图来控制知识转移。具体来说,Luo et al. (2018) 考虑了合并来自源域的特权信息的模态差异。引入有向图(称为蒸馏图)来探索不同模态之间的关系。每个顶点表示一个模态,边表示一种模态与另一种模态之间的连接强度。Minami et al. (2019) 提出了一种基于双向图的多样化协作学习,以探索不同的知识转移模式。Yao et al. (2020) 引入了 GNN 来处理基于图的知识的知识转移。此外,使用知识蒸馏,将图卷积教师网络的拓扑语义作为拓扑感知知识被转移到图卷积学生网络中(Yang et al. 2020b)

基于图的蒸馏可以传递数据的信息结构知识。然而,如何正确构建图来对数据的结构知识进行建模仍然是一项具有挑战性的研究。

5,5 基于注意力的蒸馏
由于注意力可以很好地反映卷积神经网络的神经元激活,因此在知识蒸馏中使用了一些注意力机制来提高学生网络的性能(Zagoruyko and Komodakis 2017;Huang 和 Wang 2017;Srinivas 和 Fleuret 2018;Crowley 等人,2018 年;Song 等人,2018 年)。在这些基于注意力的 KD 方法中(Crowley 等人,2018 年;Huang 和 Wang 2017;Srinivas 和 Fleuret 2018;Zagoruyko 和 Komodakis 2017),定义了不同的注意力转移机制,用于将知识从教师网络提炼到学生网络。注意力转移的核心是定义在神经网络层中嵌入特征的注意力图。也就是说,有关特征嵌入的知识是通过注意力图函数来传输的。与注意力图不同,Song等人(2018)提出了一种不同的注意力知识蒸馏方法。注意力机制用于分配不同的置信度规则(Song et al. 2018)。

5,6 无数据蒸馏
已经提出了一些无数据 KD 方法,以克服因隐私、合法性、安全性和机密性问题而产生的数据不可用问题(Chen 等人,2019a;Lopes 等人,2017 年;Nayak 等人,2019 年;Micaelli 和 Storkey 2019;Haroush 等人,2020 年;Ye 等人,2020 年;Nayak 等人,2021 年;Chawla 等人,2021 年)。正如“无数据”所暗示的那样,没有训练数据。相反,数据是新生成的或合成生成的。

图 14
图14
用于无数据蒸馏的通用框架

全尺寸图像
具体来说,在(Chen et al. 2019a;Ye 等人,2020 年;Micaelli 和 Storkey 2019;Yoo 等人,2019 年;胡 等人,2020 年),传输数据由 GAN 生成。在所提出的无数据知识蒸馏方法(Lopes et al. 2017)中,利用教师网络的层激活或层谱激活重建了训练学生网络的传输数据。Yin et al. (2020) 提出了 DeepInversion,它使用知识蒸馏生成合成图像,用于无数据知识转移。Nayak 等人(2019 年)提出了不使用现有数据的零样本知识蒸馏。传输数据是通过使用教师网络的参数对softmax空间进行建模而产生的。事实上,目标数据在(Micaelli and Storkey 2019;Nayak 等人,2019 年)是通过使用来自教师网络特征表示的信息生成的。与零样本学习类似,通过将教师模型中的知识提炼到学生神经网络中来设计具有少样本学习的知识蒸馏方法(Kimura 等人,2018 年;Shen 等人,2021 年)。教师使用有限的标记数据。此外,还有一种新型的蒸馏称为数据蒸馏,类似于无数据蒸馏(Radosavovic 等人,2018 年;Liu 等人,2019d;Zhang 等人,2020d)。在数据蒸馏中,采用从教师模型生成的未标记数据的新训练注释来训练学生模型。

综上所述,无数据蒸馏中的合成数据通常由预训练教师模型的特征表示生成,如图所示。14. 尽管无数据蒸馏在数据不可用的情况下显示出巨大的潜力,但它仍然是一项非常具有挑战性的任务,即如何生成高质量的多样化训练数据以提高模型的可推广性。

5,7 定量蒸馏
网络量化通过将高精度网络(例如 32 位浮点)转换为低精度网络(例如 2 位和 8 位)来降低神经网络的计算复杂性。同时,知识蒸馏旨在训练一个小模型,以产生与复杂模型相当的性能。已经提出了一些 KD 方法,使用师生框架中的量化过程(Polino 等人,2018 年;Mishra 和 Marr 2018;Wei 等人,2018 年;Shin 等人,2019 年;Kim 等人,2019a)。量化蒸馏方法的框架如图所示。15.

具体来说,Polino等人(2018)提出了一种量化蒸馏方法,将知识转移到权重量化的学生网络中。在Mishra和Marr(2018)中,提出的量化KD被称为“学徒”。高精度教师网络将知识转移到小型低精度学生网络。为了保证小学生网络准确模仿大教师网络,首先在特征图上对全精度教师网络进行量化,然后将知识从量化的教师转移到量化的学生网络(Wei et al. 2018)。Kim等人(2019a)提出了量化意识知识蒸馏,它基于量化学生网络的自学以及教师和学生网络与知识转移的共同研究。此外,Shin et al. (2019) 使用蒸馏和量化对深度神经网络进行了实证分析,同时考虑了知识蒸馏的超参数,例如教师网络的大小和蒸馏温度。最近,与上述量化蒸馏方法不同,自蒸馏训练计划旨在提高量化深度模型的性能,教师共享学生的模型参数(Boo 等人,2021 年)。

图例 15
图15
量化蒸馏的通用框架

全尺寸图像
5,8 终身蒸馏
终身学习,包括持续学习、持续学习和元学习,旨在以与人类相似的方式学习。它积累了以前学到的知识,并将学到的知识转移到未来的学习中(Chen and Liu 2018)。知识蒸馏提供了一种有效的方法,可以保存和转移所学知识,而不会造成灾难性的遗忘。最近,越来越多的基于终身学习的 KD 变体被开发出来(Jang 等人,2019 年;Flennerhag 等人,2019 年;Peng 等人,2019b;Liu 等人,2019e;Lee 等人,2019b;Zhai 等人,2019 年;周 等人,2020 年;Shmelkov 等人,2017 年;Li 和 Hoiem 2017;Caccia 等人,2020 年)。(Jang 等人,2019 年;Peng 等人,2019b;Liu 等人,2019e;Flennerhag 等人,2019 年)采用元学习。Jang等人(2019)设计了元转移网络,可以确定在师生架构中转移的内容和位置。Flennerhag et al. (2019) 提出了一个名为 Leap 的轻量级框架,通过将知识从一个学习过程转移到另一个学习过程,用于对任务流形进行元学习。Peng等人(2019b)设计了一种新的知识转移网络架构,用于小样本图像识别。该架构同时结合了来自图像和先验知识的视觉信息。Liu等人(2019e)提出了用于图像检索的语义感知知识保存方法。教师从图像模态和语义信息中获得的知识被保存和转移。

此外,为了解决终身学习中的灾难性遗忘问题,全局蒸馏(Lee et al. 2019b)、基于知识蒸馏的终身 GAN(Zhai et al. 2019)、多模型蒸馏(周 et al. 2020)和其他基于 KD 的方法(Li and Hoiem 2017;Shmelkov 等人,2017 年)已被开发用于提取所学知识并教授学生网络新任务。

表5 不同知识蒸馏方法对CIFAR10的性能比较。请注意,\(\uparrow \) 表示与相应的基线模型相比,每种方法所学习的学生网络的性能改进
全尺寸表格
表6 不同知识蒸馏方法对CIFAR100的性能比较。请注意,\(\uparrow \) 表示与相应的基线模型相比,每种方法所学习的学生网络的性能改进
全尺寸表格
5,9 基于NAS的蒸馏
神经架构搜索 (NAS) 是最流行的自动机器学习 (AutoML) 技术之一,旨在自动识别深度神经模型并自适应地学习适当的深度神经结构。在知识蒸馏中,知识转移的成功不仅取决于教师的知识,还取决于学生的架构。然而,大教师模式和小学生模式之间可能存在能力差距,使学生难以从老师那里学到好东西。为了解决这个问题,已经采用了神经架构搜索来寻找基于预言机(Kang et al. 2020)和架构感知知识蒸馏(Liu et al. 2019i)的合适学生架构。此外,知识蒸馏用于提高神经架构搜索的效率,例如 AdaNAS(Macko 等人,2019 年)、具有提炼架构知识的 NAS(Li 等人,2020 年a)、教师指导的架构搜索或 TGSA(Bashivan 等人,2019 年)和一次性 NAS(Peng 等人,2020 年).在 TGSA 中,每个架构搜索步骤都受指导以模拟教师网络的中间特征表示。有效地搜索学生可能的结构,并由教师有效地监督特征转移。

6 性能比较
知识蒸馏是模型压缩的极好技术。通过捕捉教师知识并在师生学习中使用蒸馏策略,它提供了轻量级学生模型的有效性能。最近,许多知识蒸馏方法都专注于提高性能,尤其是在图像分类任务中。在本节中,为了清楚地证明知识蒸馏的有效性,我们总结了一些典型的KD方法在两个流行的图像分类数据集上的分类性能。

这两个数据集分别是 CIFAR10 和 CIFAR100 (Krizhevsky and Hinton 2009),分别由从 10 个和 100 个类中获取的 \(32\times 32\) RGB 图像组成。两者都有 50000 张训练镜像和 10000 张测试镜像,每个类都有相同数量的训练和测试镜像。为了公平比较,KD方法的实验分类精度结果(%)直接来自相应的原始论文,如表5所示CIFAR10和表6所示CIFAR100。我们报告了使用不同类型的知识、蒸馏方案和师生模型结构时不同方法的性能。具体来说,括号中的精度是教师和学生模型的分类结果,它们是单独训练的。需要注意的是,DML(Zhang et al. 2018b)、DCM(Yao and Sun 2020)和KDCL(Guo et al. 2020)的精度对是师生在线蒸馏后的表现。

从表5和表6的性能比较中,可以总结出以下几点:

知识蒸馏可以在不同的深度模型上实现。

不同深度模型的模型压缩可以通过知识蒸馏来实现。

通过协作学习进行在线知识提炼(Zhang et al. 2018b;Yao and Sun 2020)可以显著提高深度模型的性能。

自我知识蒸馏(Yang et al. 2019b;Yuan 等人,2020 年;Xu 和 Liu 2019;Yun et al. 2020)可以很好地提高深度模型的性能。

离线和在线蒸馏方法通常分别传递基于特征的知识和基于响应的知识。

轻量级深度模型(学生)的性能可以通过高容量教师模型的知识转移来提高。

通过对不同知识蒸馏方法的性能比较,可以很容易地得出结论,知识蒸馏是一种有效且高效的深度模型压缩技术。

7 应用
知识蒸馏作为一种对深度神经网络进行压缩和加速的有效技术,在人工智能的不同领域得到了广泛的应用,包括视觉识别、语音识别、自然语言处理(NLP)和推荐系统。此外,知识蒸馏还可用于其他目的,例如数据隐私和防御对抗性攻击。本节简要回顾了知识蒸馏的应用。

7,1 视觉识别中的KD
在过去的几年中,各种知识蒸馏方法已被广泛用于不同视觉识别应用中的模型压缩。具体来说,大多数知识蒸馏方法都是以前为图像分类而开发的(Li and Hoiem 2017;Peng 等人,2019b;Bagherinezhad 等人,2018 年;Chen 等人,2018a;Wang 等人,2019b;Mukherjee 等人,2019 年;Zhu et al. 2019),然后扩展到其他视觉识别应用,包括人脸识别(Luo et al. 2016;Kong 等人,2019 年;Yan 等人,2019 年;Ge 等人,2018 年;Wang 等人,2018b,2019c; Duong 等人,2019 年;Wu 等人,2020 年;Wang 等人,2017 年;Zhang 等人,2020b;Wang et al. 2020b)、图像/视频分割(He et al. 2019;Mullapudi 等人,2019 年;Dou 等人,2020 年;Liu 等人,2019h;Siam 等人,2019 年;Hou 等人,2020 年;Bergmann 等人,2020 年)、动作识别(Luo 等人,2018 年;Hao 和 Zhang 2019;Thoker 和 Gall 2019;Garcia 等人,2018 年;Wang 等人,2019e;Wu 等人,2019b;Zhang 等人,2020c;Cui et al. 2020)、目标检测(Li et al. 2017;Shmelkov 等人,2017 年;Cun 和 Pun 2020;Wang 等人,2019d;Huang 等人,2020 年;Wei 等人,2018 年;Hong 和 Yu 2019;Chawla et al. 2021)、车道检测(Hou et al. 2019)、人员重新识别(Wu et al. 2019a)、行人检测(Shen et al. 2016)、面部地标检测(Dong and Yang 2019)、姿势估计(Nie et al. 2019;Zhang 等人,2019a;Zhao et al. 2018)、视频字幕(Pan et al. 2020;Zhang et al. 2020f)、人员搜索(Munjal et al. 2019;Zhang et al. 2021c)、图像检索 (Liu et al. 2019e)、阴影检测 (Chen et al. 2020c)、显著性估计 (Li et al. 2019)、深度估计 (Pilzer et al. 2019;Ye 等人,2019 年)、视觉里程计(Saputra 等人,2019 年)、文本到图像合成(Yuan 和 Peng,2020 年;Tan et al. 2021)、视频分类(Zhang and Peng 2018;Bhardwaj 等人,2019 年)、视觉问答(Mun 等人,2018 年;Aditya 等人,2019 年)和异常检测(Bergmann 等人,2020 年)。由于分类任务中的知识蒸馏是其他任务的基础,因此我们简要回顾了具有挑战性的图像分类设置(例如人脸识别和动作识别)中的知识蒸馏。

现有的基于KD的人脸识别方法不仅注重高效部署,还注重竞争识别精度(Luo et al. 2016;Kong 等人,2019 年;Yan 等人,2019 年;Ge 等人,2018 年;Wang 等人,2018b,2019c; Duong 等人,2019 年;Wang 等人,2017, 2020b;Zhang 等人,2020b)。具体来说,在Luo et al. (2016)中,来自教师网络顶层提示层所选信息神经元的知识被转移到学生网络中。设计了一种教师加权策略,从提示层中丢失了特征表示,以避免教师的错误监督(Wang et al. 2018b)。设计了一种递归知识蒸馏方法,方法是使用前一个学生网络来初始化下一个学生网络(Yan et al. 2019)。由于大多数人脸识别方法执行开放集识别,即测试集上的类/身份对训练集是未知的,因此人脸识别标准通常是正样本和负样本的特征表示之间的距离指标,例如,Duong et al. (2019) 中的角度损失和 Wu et al. (2020) 中的相关嵌入损失。

为了提高低分辨率人脸识别的准确性,通过使用高分辨率人脸教师和低分辨率人脸学生之间的架构来开发知识蒸馏框架,以实现模型加速和提高分类性能(Ge et al. 2018;Wang 等人,2019c;Kong 等人,2019 年;Ge 等人,2020 年)。具体而言,Ge et al. (2018)提出了一种选择性知识蒸馏方法,其中用于高分辨率人脸识别的教师网络通过稀疏图优化,选择性地将其信息性面部特征转移到学生网络中,用于低分辨率人脸识别。在Kong等人(2019)中,通过设计一个统一人脸幻觉和异构识别子网的分辨率不变模型,实现了交叉分辨率的人脸识别。为了获得高效且有效的低分辨率人脸识别模型,采用学生和教师网络之间的多核最大平均差异作为特征损失(Wang et al. 2019c)。此外,基于KD的人脸识别可以通过改变知识蒸馏中的损失来扩展到人脸对齐和验证(Wang等人,2017)。

最近,知识蒸馏已成功用于解决复杂的图像分类问题(Zhu et al. 2019;Bagherinezhad 等人,2018 年;Peng 等人,2019b;Li 和 Hoiem 2017;Chen 等人,2018a;Wang 等人,2019b;Mukherjee 等人,2019 年)。对于不完整、模棱两可和冗余的图像标签,提出了通过自蒸馏和标签级进的标签精炼模型来学习用于复杂图像分类的软、信息、集体和动态标签(Bagherinezhad 等人,2018 年)。为了解决CNN在各种图像分类任务中的灾难性遗忘问题,提出了一种CNN的学习方法,包括知识蒸馏和终身学习,以识别新的图像任务并保留原始任务(Li and Hoiem 2017)。为了提高图像分类的准确性,Chen等人(2018a)提出了一种基于特征图的GAN知识蒸馏方法。它将知识从特征图转移给学生。使用知识蒸馏,为图像分类器设计了一个视觉解释和诊断框架,该框架统一了用于解释的师生模型和用于诊断的深度生成模型(Wang et al. 2019b)。与基于KD的低分辨率人脸识别类似,Zhu等人(2019)提出了用于低分辨率图像分类的深度特征蒸馏,其中学生的输出特征与教师的输出特征相匹配。

正如第1节所述。5.3、用师生结构进行知识提炼,可以转移和保存跨模态知识。可以成功实现跨模态任务场景下的高效和有效动作识别(Thoker and Gall 2019;Luo 等人,2018 年;Garcia 等人,2018 年;Hao 和 Zhang 2019;Wu 等人,2019b;Zhang 等人,2020c)。这些方法是时空模态蒸馏的例子,具有不同的动作识别知识转移。例子包括相互师生网络(Thoker and Gall 2019)、多流网络(Garcia et al. 2018)、时空蒸馏密集连通网络(Hao and Zhang 2019)、图蒸馏(Luo et al. 2018)和多教师到多学生网络(Wu et al. 2019b;Zhang 等人,2020c)。在这些方法中,轻量级学生可以从存储在教师中的多种模式中提炼和共享知识信息。

我们总结了基于蒸馏的视觉识别应用的两个主要观察结果,如下所示。

知识蒸馏为各种不同的视觉识别任务提供了高效和有效的师生学习,因为在高容量教师网络的指导下,可以很容易地训练轻量级的学生网络。

知识蒸馏可以充分利用复杂数据源中的不同类型的知识,如跨模态数据、多域数据、多任务数据、低分辨率数据等,因为师生架构灵活,知识转移灵活。

7,2 NLP 中的 KD
传统的语言模型(如BERT)非常耗时且耗费资源,结构复杂繁琐。在自然语言处理(NLP)领域广泛研究了知识蒸馏,以获得轻量级、高效和有效的语言模型。越来越多的KD方法被提出来解决众多的NLP任务(Liu et al. 2019b;Gordon 和 Duh 2019;Haidar 和 Rezagholizadeh 2019;Yang 等人,2020c;Tang 等人,2019 年;胡 等人,2018 年;Sun 等人,2019 年;Nakashole 和 Flauger 2017;Jiao 等人,2020 年;Wang 等人,2018d;周 等人,2019a;Sanh 等人,2019 年;Turc 等人,2019 年;Arora 等人,2019 年;Clark 等人,2019 年;Kim 和 Rush 2016;Mou 等人,2016 年;Liu 等人,2019f;Hahn 和 Choi 2019;Tan 等人,2019 年;Kuncoro 等人,2016 年;Cui 等人,2017 年;Wei 等人,2019 年;Freitag 等人,2017 年;Shakeri 等人,2019 年;Aguilar 等人,2020 年;Fu 等人,2021 年;Zhang 等人,2021b;Chen 等人,2020b;Wang 和 Du 2021)。使用 KD 的现有 NLP 任务包含神经机器翻译 (NMT)(Hahn 和 Choi 2019;周 等人,2019a;Li 等人,2021 年;Kim 和 Rush 2016;Gordon 和 Duh 2019;Tan 等人,2019 年;Wei 等人,2019 年;Freitag 等人,2017 年;Zhang et al. 2021b)、文本生成(Chen et al. 2020b;Haidar 和 Rezagholizadeh 2019)、问答系统(胡 等人,2018 年;Wang 等人,2018d;Arora 等人,2019 年;Yang et al. 2020c)、事件检测 (Liu et al. 2019b)、文档检索 (Shakeri et al. 2019)、文本识别 (Wang and Du 2021) 等。在这些基于 KD 的 NLP 方法中,大多数属于自然语言理解 (NLU),并且许多用于 NLU 的 KD 方法被设计为特定任务的蒸馏(Tang et al. 2019;Turc 等人,2019 年;Mou 等人,2016 年)和多任务蒸馏(Liu 等人,2019f;Yang 等人,2020c;Sanh 等人,2019 年;Clark 等人,2019 年)。在下文中,我们描述了 KD 研究在神经机器翻译方面的工作,然后扩展了 NLU 中一个名为来自转换器(或 BERT)的双向编码器表示的典型多语言表示模型(Devlin 等人,2019 年)。

在自然语言处理中,神经机器翻译是最热门的应用。然而,现有的具有竞争性能的NMT模型非常大。为了获得轻量级 NMT,有许多用于神经机器翻译的扩展知识蒸馏方法(Hahn 和 Choi 2019;周 等人,2019a;Kim 和 Rush 2016;Gordon 和 Duh 2019;Wei 等人,2019 年;Freitag 等人,2017 年;Tan 等人,2019 年)。最近,周等人(2019a)实证证明,基于KD的非自回归机器翻译(NAT)模型的更好性能在很大程度上取决于其能力和通过知识转移提取的数据。Gordon和Duh(2019)从数据增强和正则化的角度解释了序列级知识蒸馏的良好性能。在(Kim and Rush 2016)中,在NMT的序列生成场景中,有效的词级知识蒸馏被扩展到序列级知识蒸馏。序列生成学生模型模拟教师的序列分布。为了克服多语言的多样性,Tan et al. (2019) 提出了多教师提炼法,其中处理双语对的多个个体模型是教师,多语言模型是学生。为了提高翻译质量,教师使用数据过滤方法监督学生模型的多个NMT模型集合Freitag等人(2017)。为了提高机器翻译和机器阅读任务的性能,(Wei et al. 2019)提出了一种新颖的在线知识蒸馏方法,该方法解决了训练过程的不稳定性和每个验证集的性能下降问题。在这个在线 KD 中,在培训期间评估最好的模型被选为教师,并由任何后续更好的模型进行更新。如果下一个模型的性能较差,则当前的教师模型将指导它。

作为一种多语言表示模型,BERT 在自然语言理解中备受关注(Devlin et al. 2019),但它也是一个不容易部署的繁琐深度模型。为了解决这个问题,提出了几种使用知识蒸馏的 BERT 轻量级变体(称为 BERT 模型压缩)(Sun 等人,2019 年;Jiao 等人,2020 年;Tang 等人,2019 年;Sanh 等人,2019 年;Wang 等人,2020a;Liu 等人,2020b;Fu 等人,2021 年)。Sun et al. (2019) 提出了用于 BERT 模型压缩的患者知识蒸馏 (BERT-PKD),用于情感分类、释义相似性匹配、自然语言推理和机器阅读理解。在患者 KD 方法中,来自教师提示层的 [CLS] 标记的特征表示被转移到学生身上。为了加速语言推理,Jiao et al. (2020) 提出了 TinyBERT,即两阶段转换器知识蒸馏。它包含一般领域和特定任务的知识提炼。对于句子分类和匹配,Tang et al. (2019) 提出了将 BERT 教师模型中特定任务的知识提炼成双向长短期记忆网络 (BiLSTM)。在(Sanh et al. 2019)中,一个名为DistilBERT的轻量级学生模型被设计和学习,该模型具有与BERT相同的通用结构,可以在NLP的各种任务中学习。在 Aguilar et al. (2020) 中,通过内部蒸馏使用大型教师 BERT 的内部表示,提出了一个简化的学生 BERT。

此外,下面还介绍了一些具有不同视角的典型 NLP KD 方法。对于问答,为了提高机器阅读理解的效率和鲁棒性,胡等人(2018)提出了一种注意力引导的答案蒸馏方法,该方法融合了通用蒸馏和答案蒸馏以避免混淆答案。对于特定任务的蒸馏(Turc 等人,2019 年),研究了知识蒸馏的性能以及紧凑学生模型的预训练、蒸馏和微调之间的相互作用。所提出的预训练蒸馏在情感分类、自然语言推理、文本蕴涵方面表现良好。对于自然语言理解背景下的多任务蒸馏,Clark 等人(2019 年)提出了基于重生神经网络的单重生蒸馏(Furlanello 等人,2018 年)。单任务教师教多任务学生。对于多语言表示,知识蒸馏在多语言单词嵌入之间转移知识,用于双语词典归纳(Nakashole and Flauger 2017)。对于资源匮乏的语言,知识转移在多语言模型的集合中是有效的(Cui et al. 2017)。

关于自然语言处理知识蒸馏的几点观察总结如下。

知识蒸馏提供了高效且有效的轻量级语言深度模型。大容量教师模型可以将大量不同种类的语言数据中的丰富知识进行转移,以训练小学生模型,使学生能够快速完成许多语言任务,并具有有效的表现。

考虑到来自多语言模型的知识可以相互转移和共享,师生知识转移可以轻松有效地解决许多多语言任务。

在深度语言模型中,序列知识可以有效地从大网络转移到小网络。

7,3 KD在语音识别中的应用
在语音识别领域,深度神经声学模型因其强大的性能而备受关注和兴趣。然而,越来越多的实时语音识别系统部署在计算资源有限且响应时间快的嵌入式平台中。最先进的深度复杂模型无法满足此类语音识别场景的要求。为了满足这些要求,知识蒸馏被广泛研究并应用于许多语音识别任务中。有许多知识蒸馏系统用于设计用于语音识别的轻量级深度声学模型(Chebotar 和 Waters,2016 年;Wong 和 Gales 2016;Chan 等人,2015 年;Price 等人,2016 年;Fukuda 等人,2017 年;Bai 等人,2019 年;Ng 等人,2018 年;Albanie 等人,2018 年;Lu 等人,2017 年;Shi 等人,2019a;Roheda 等人,2018 年;Shi 等人,2019b;Gao 等人,2019 年;Ghorbani 等人,2018 年;Takashima 等人,2018 年;Watanabe 等人,2017 年;Shi 等人,2019c;Asami 等人,2017 年;Huang 等人,2018 年;Shen 等人,2018 年;Perez 等人,2020 年;Shen 等人,2019c;Oord 等人,2018 年;Kwon 等人,2020 年;Shen 等人,2020 年)。特别是,这些基于KD的语音识别应用程序具有口语识别(Shen et al. 2018, 2019c, 2020)、音频分类(Gao et al. 2019;Perez 等人,2020 年)、独立于文本的说话人识别(Ng 等人,2018 年)、语音增强(Watanabe 等人,2017 年)、声学事件检测(Price 等人,2016 年;Shi et al. 2019a, b)、语音合成 (Oord et al. 2018) 等。

大多数现有的语音识别知识蒸馏方法都使用师生架构来提高声学模型的效率和识别准确性(Chan et al. 2015;Watanabe 等人,2017 年;Chebotar 和 Waters 2016;Shen 等人,2019c;Lu 等人,2017 年;Shen et al. 2018, 2020;Gao 等人,2019 年;Shi 等人,2019c,a; Perez 等人,2020 年)。使用递归神经网络 (RNN) 来保存语音序列中的时间信息,将来自教师 RNN 声学模型的知识转移到小型学生 DNN 模型中(Chan 等人,2015 年)。通过组合多种声学模式可以获得更好的语音识别精度。具有不同个人训练标准的不同 RNN 的集合旨在通过知识转移来训练学生模型(Chebotar 和 Waters,2016 年)。学习学生模型在 5 种语言的 2,000 小时大词汇连续语音识别 (LVCSR) 任务中表现良好。为了加强口语识别(LID)模型对短话语的泛化,将基于长话语的教师网络的特征表示知识转移到基于短话语的学生网络中,该网络可以区分短话语并在基于短时话语的LID任务中表现良好(Shen et al. 2018).为了进一步提高基于短话语的LID的性能,提出了一种交互式的师生在线蒸馏学习,以增强短话语的特征表示性能(Shen et al. 2019c)。通过将教师对较长话语的内部表征知识提炼到学生对短话语的内部表征知识中,LID在短话语上的性能也得到了改善(Shen et al. 2020)。

同时,针对音频分类,提出了一种多层次的特征蒸馏方法,并采用对抗性学习策略来优化知识转移(Gao et al. 2019)。为了提高噪声鲁棒性语音识别,知识蒸馏被用作语音增强的工具(Watanabe 等人,2017 年)。在Perez等人(2020)中,提出了一种视听多模态知识蒸馏方法。知识从视觉和听觉数据的教师模型转移到音频数据的学生模型。从本质上讲,这种蒸馏在教师和学生之间共享跨模态知识(Perez 等人,2020 年;Albanie 等人,2018 年;Roheda 等人,2018 年)。为了实现高效的声学事件检测,提出了一种同时使用知识蒸馏和量化的量化蒸馏方法(Shi et al. 2019a)。量化蒸馏将具有更好检测精度的大型 CNN 教师模型中的知识转移到量化的 RNN 学生模型中。

与大多数现有的传统帧级 KD 方法不同,序列级 KD 在某些用于语音识别的序列模型中表现更好,例如连接主义时间分类 (CTC) (Wong and Gales 2016;Takashima 等人,2018 年;Huang 等人,2018 年)。在(Huang et al. 2018)中,序列级KD被引入联结主义时间分类中,以匹配用于教师模型训练的输出标签序列和蒸馏中使用的输入语音帧。Wong和Gales(2016)研究了语音识别性能对帧级和序列级师生培训的影响,提出了一种新的序列级师生培训方法。教师合奏是使用序列级组合而不是帧级组合来构建的。为了提高基于单向 RNN 的 CTC 在实时语音识别中的性能,通过帧级 KD 和序列级 KD 将基于双向 LSTM 的 CTC 教师模型的知识转移到基于单向 LSTM 的 CTC 学生模型中(Takashima 等人,2018 年)。

此外,知识蒸馏可用于解决语音识别中的一些特殊问题(Bai et al. 2019;Asami 等人,2017 年;Ghorbani 等人,2018 年)。为了克服数据稀缺时 DNN 声学模型的过拟合问题,采用知识蒸馏作为一种正则化方法,在源模型的监督下训练自适应模型(Asami 等人,2017 年)。最终的调整模型在三个真实的声学域上实现了更好的性能。为了克服非母语语音识别性能的下降,通过从多个特定于口音的 RNN-CTC 模型中提炼知识来训练高级多口音学生模型(Ghorbani 等人,2018 年)。从本质上讲,知识蒸馏(Asami et al. 2017;Ghorbani et al. 2018)实现了跨领域知识转移。为了解决将外部语言模型 (LM) 融合到序列到序列模型 (Seq2seq) 中进行语音识别的复杂性,知识蒸馏被用作将 LM(教师)集成到 Seq2seq 模型(学生)中的有效工具(Bai et al. 2019)。经过训练的Seq2seq模型可以降低序列到序列语音识别中的字符错误率。

综上所述,基于知识蒸馏的语音识别可以得出以下几点结论。

轻量级学生模型可以满足语音识别的实际需求,如实时响应、使用有限的资源和高识别精度等。

由于语音序列的时间特性,许多师生架构都是建立在 RNN 模型之上的。通常,选择RNN模型作为教师,它可以很好地保存时间知识并将其从真实声学数据转移到学生模型中。

序列级知识蒸馏可以很好地应用于性能良好的序列模型。事实上,帧级 KD 总是使用基于响应的知识,但序列级 KD 通常从教师模型的提示层转移基于特征的知识。

使用师生知识转移的知识蒸馏可以轻松解决多口音和多语言语音识别等应用中的跨域或跨模态语音识别问题。

7,4 KD在其他应用中的应用
充分和正确地利用外部知识,例如在用户评论或图像中,在深度推荐模型的有效性中起着非常重要的作用。降低深度推荐模型的复杂性,提高效率也是非常必要的。最近,知识蒸馏已成功应用于深度模型压缩和加速的推荐系统(Chen et al. 2018b;Tang 和 Wang 2018;Pan 等人,2019 年)。在(Tang and Wang 2018)中,知识蒸馏首先被引入推荐系统,并称为排名蒸馏,因为推荐被表示为排名问题。Chen等人(2018b)提出了一种对抗性知识蒸馏方法,用于有效推荐。教师作为正确的复习预测网络,监督学生作为用户项目预测网络(生成器)。学生的学习是通过教师和学生网络之间的对抗性适应来调整的。与Chen et al. (2018b), Tang and Wang (2018)的蒸馏不同,Pan et al. (2019)通过知识蒸馏为推荐系统设计了一个增强的协同去噪自动编码器(ECAE)模型,以从用户反馈中获取有用的知识并减少噪音。统一的ECAE框架包含一个发电网络、一个再训练网络和一个蒸馏层,用于转移知识并减少来自发电网络的噪音。

利用知识蒸馏的自然特征与师生架构,知识蒸馏被用作解决深度模型的对抗性攻击或扰动的有效策略(Papernot 等人,2016 年;Ross 和 Doshi-Velez 2018;Goldblum 等人,2020 年;Gil 等人,2019 年)以及由于隐私、机密性和安全问题而导致的数据不可用问题(Lopes 等人,2017 年;Papernot 等人,2017 年;Wang 等人,2019a;Bai 等人,2020 年;Vongkulbhisal 等人,2019 年)。具体来说,对抗性样本的扰动可以通过蒸馏教师网络的稳健输出来克服(Ross and Doshi-Velez 2018;Papernot 等人,2016 年)。为了避免暴露私人数据,多名教师访问敏感或未标记数据的子集并监督学生(Papernot 等人,2017 年;Vongkulbhisal 等人,2019 年)。为了解决隐私和安全问题,通过无数据蒸馏,使用教师网络的层激活或层谱激活来生成训练学生网络的数据(Lopes 等人,2017 年)。为了保护数据隐私和防止知识盗版,Wang等人(2019a)提出了一种通过知识蒸馏的私有模型压缩框架。学生模型应用于公共数据,而教师模型同时应用于敏感数据和公共数据。这种私人知识蒸馏采用隐私丢失和批量丢失来进一步提高隐私。为了考虑隐私和性能之间的折衷,Bai 等人(2020 年)通过一种新颖的逐层知识蒸馏开发了一种少数样本网络压缩方法,每类样本很少。当然,知识蒸馏还有其他特别有趣的应用,例如神经架构搜索(Macko et al. 2019;Bashivan 等人,2019 年)、深度神经网络的可解释性(Liu 等人,2018b)和联邦学习(Bistritz 等人,2020 年;Lin 等人,2020 年;Seo 等人,2020 年;He 等人,2020a)。

8 结论与讨论
近年来,知识蒸馏及其应用引起了人们的广泛关注。本文从知识、蒸馏方案、师生架构、蒸馏算法、性能比较和应用等角度对知识蒸馏进行了全面综述。下面,我们将讨论知识蒸馏的挑战,并对未来知识蒸馏的研究提供一些见解。

8,1 挑战
对于知识提炼,关键是 1) 从教师那里提取丰富的知识,2) 将知识从教师那里转移出来,以指导学生的训练。因此,我们从知识质量、提炼类型、师生架构设计、知识提炼背后的理论等几个方面探讨了知识蒸馏的挑战。

大多数 KD 方法利用不同类型知识的组合,包括基于响应、基于特征和基于关系的知识。因此,重要的是要了解每种知识的影响,并了解不同类型的知识如何以互补的方式相互帮助。例如,基于响应的知识与标签平滑和模型正则化具有相似的动机(Kim and Kim 2017;Muller 等人,2019 年;Ding 等人,2019 年);基于特征的知识通常用于模仿教师的中间过程,而基于关系的知识用于捕获不同样本之间的关系。为此,在一个统一和互补的框架中对不同类型的知识进行建模仍然具有挑战性。例如,来自不同提示层的知识可能对学生模型的训练产生不同的影响:1)基于响应的知识来自最后一层;2)来自更深层次的提示/引导层的基于特征的知识可能会受到过度正则化的影响(Romero et al. 2015)。

如何将丰富的知识从老师传授给学生,是知识提炼的关键一步。通常,现有的蒸馏方法可分为离线蒸馏、在线蒸馏和自蒸馏。离线蒸馏通常用于从复杂的教师模型中转移知识,而教师模型和学生模型在在线蒸馏和自蒸馏的设置中具有可比性。为了提高知识转移的有效性,应进一步研究模型复杂性与现有蒸馏方案或其他新型蒸馏方案之间的关系(Sun et al. 2021)。

目前,大多数 KD 方法都专注于新型知识或蒸馏损失函数,而对师生架构的设计研究不足(Nowak 和 Corso 2018;Crowley 等人,2018 年;Kang 等人,2020 年;Liu 等人,2019i;Ashok 等人,2018 年;Liu 等人,2019a)。事实上,除了知识和提炼算法之外,教师和学生结构之间的关系也显着影响着知识提炼的绩效。例如,一方面,最近的一些研究发现,由于教师模型和学生模型之间的模型能力差距,学生模型可以从一些教师模型中学到的东西很少(Zhang et al. 2019b;Kang 等人,2020 年);另一方面,从一些关于神经网络能力的早期理论分析来看,浅层网络能够学习与深度神经网络相同的表示(Ba and Caruana 2014)。因此,设计一个有效的学生模型或构建一个合适的教师模型仍然是知识蒸馏中具有挑战性的问题。

尽管有大量的知识蒸馏方法和应用,但对知识蒸馏的理解,包括理论解释和实证评估仍然不足(Lopez-Paz 等人,2016 年;Phuong 和 Lampert 2019a;Cho 和 Hariharan 2019 年)。例如,蒸馏可以被视为一种具有特权信息的学习形式(Lopez-Paz 等人,2016 年)。线性教师和学生模型的假设能够通过蒸馏研究学生学习特征的理论解释(Phuong 和 Lampert,2019a)。此外,Cho 和 Hariharan (2019) 对知识蒸馏的功效进行了一些实证评估和分析。然而,要深刻理解知识提炼的普遍性,特别是如何衡量知识的质量或师生架构的质量,仍然很难实现。

8,2 未来方向
为了提高知识提炼的性能,最重要的因素包括什么样的师生网络架构,从教师网络中学到什么样的知识,以及在哪里提炼到学生网络中。

深度神经网络的模型压缩和加速方法通常分为四类,即参数修剪和共享、低秩分解、转移紧凑卷积滤波器和知识蒸馏(Cheng et al. 2018)。在现有的知识蒸馏方法中,讨论知识蒸馏与其他种类压缩方法相结合的相关著作只有少数。例如,量化知识蒸馏可以看作是一种参数修剪方法,它将网络量化集成到师生架构中(Polino 等人,2018 年;Mishra 和 Marr 2018;Wei 等人,2018 年)。因此,为了学习高效和有效的轻量级深度模型以部署在便携式平台上,通过知识蒸馏和其他压缩技术的混合压缩方法是必要的,因为大多数压缩技术都需要重新训练/微调过程。此外,如何确定应用不同压缩方法的正确顺序将是未来研究的一个有趣的话题。

除了用于深度神经网络加速的模型压缩外,由于知识转移在师生架构上的自然特征,知识蒸馏还可以用于其他问题。最近,知识蒸馏已被应用于数据隐私和安全(Wang et al. 2019a)、深度模型的对抗性攻击(Papernot et al. 2016)、跨模态(Gupta et al. 2016)、多领域(Asami et al. 2017)、灾难性遗忘(Lee et al. 2019b)、加速深度模型的学习(Chen et al. 2016)、神经架构搜索的效率(Bashivan et al. 2019)、自我监督(Noroozi 等人,2018 年)和数据增强(Lee 等人,2019 年a;Gordon 和 Duh 2019)。另一个有趣的例子是,从小型教师网络到大型学生网络的知识转移可以加速学生的学习(Chen et al.,2016)。这与香草知识蒸馏有很大不同。大型模型从未标记数据中学习的特征表示也可以通过蒸馏来监督目标模型(Noroozi 等人,2018 年)。为此,将知识蒸馏扩展到其他目的和应用可能是一个有意义的未来方向。

知识蒸馏的学习类似于人类的学习。将知识转移推广到经典和传统的机器学习方法中是可行的(周 et al. 2019b;Gong 等人,2018 年;You 等人,2018 年;Gong 等人,2017 年)。例如,传统的两阶段分类是基于知识蒸馏的思想,可以归结为单个教师单个学生的问题(周 et al. 2019b)。此外,知识蒸馏可以灵活地部署到各种优秀的学习方案中,例如对抗性学习(Liu et al. 2018)、自动机器学习(Macko et al. 2019;Fakoor et al. 2020)、标签噪声过滤学习 (Xia et al. 2018)、终身学习 (Zhai et al. 2019) 和强化学习 (Ashok et al. 2018;Xu 等人,2020c;Zhao 和 Hospedales 2020)。因此,将知识蒸馏与其他学习方案相结合,以应对未来的实际挑战将是有用的。

笔记
提示是指教师监督学生学习的隐藏层的输出。

引用
Aditya,S.,Saha,R.,Yang,Y.和Baral,C.(2019)。空间知识提炼,帮助视觉推理。在 WACV 中。

Aguilar,G.,Ling,Y.,Zhang,Y.,Yao,B.,Fan,X.和Guo,E.(2020)。从内部表征中提炼知识。在 AAAI 中。

Aguinaldo,A.,Chiang,PEY,Gain,A.,Patil,A.,Pearson,K.和Feizi,S.(2019)。使用知识蒸馏压缩 gans。arXiv 预印本 arXiv:1902.00159。

Ahn,S.,胡,S.,Damianou,A.,Lawrence,N.D.和Dai,Z.(2019)。用于知识转移的变分信息蒸馏。在 CVPR 中。

Albanie,S.,Nagrani,A.,Vedaldi,A.和Zisserman,A.(2018)。在野外使用跨模态迁移的语音情感识别。在 ACM MM 中。

Allen-Zhu,Z.,Li,Y.和Liang,Y.(2019)。过度参数化神经网络中的学习和泛化,超越了两层。在 NeurIPS 中。

Anil,R.,Pereyra,G.,Passos,A.,Ormandi,R.,Dahl,GE和Hinton,GE(2018)。通过在线蒸馏进行大规模分布式神经网络训练。在 ICLR 中。

Arora,S.,Cohen,N.和Hazan,E.(2018)。关于深度网络的优化:通过过度参数化的隐式加速。在ICML中。

Arora,S.,Khapra,MM和Ramaswamy,HG(2019)。关于从复杂网络中提取用于响应预测的知识。在 NAACL-HLT 中。

Asami,T.,Masumura,R.,Yamaguchi,Y.,Masataki,H.和Aono,Y.(2017)。使用知识蒸馏对 dnn 声学模型进行领域适应。在 ICASSP 中。

Ashok,A.,Rhinehart,N.,Beainy,F.和Kitani,KM(2018)。N2N学习:通过策略梯度强化学习进行网络到网络压缩。在 ICLR 中。

Asif,U.,Tang,J.和Harrer,S.(2020)。集成知识蒸馏,用于学习改进和高效的网络。在ECAI中。

Ba,J.和Caruana,R.(2014)。深网真的需要深吗?在 NeurIPS 中。

Bagherinezhad,H.,Horton,M.,Rastegari,M.和Farhadi,A.(2018)。标签精炼厂:通过标签进度改进图像网络分类。arXiv 预印本 arXiv:1805.02641。

Bai,H.,Wu,J.,King,I.和Lyu,M.(2020)。通过交叉蒸馏进行少量注射网络压缩。在 AAAI 中。

Bai,Y.,Yi,J.,Tao,J.,Tian,Z.和温,Z.(2019)。向教师学习拼写:将知识从语言模型转移到序列到序列的语音识别。在演讲中。

Bashivan,P.,Tensen,M.和DiCarlo,JJ(2019)。教师指导的建筑搜索。在 ICCV 中。

Belagiannis,V.,Farshad,A.和Galasso,F.(2018)。对抗性网络压缩。在 ECCV 中。

Bengio,Y.,Courville,A.和Vincent,P.(2013)。表征学习:回顾和新视角。IEEE TPAMI,35(8),1798–1828。

Google 学术搜索

Bergmann,P.,Fauser,M.,Sattlegger,D.和Steger,C.(2020)。不知情的学生:使用判别性潜在嵌入进行师生异常检测。在 CVPR 中。

Bhardwaj,S.,Srinivasan,M.和Khapra,MM(2019)。使用更少的帧进行高效的视频分类。在 CVPR 中。

Bistritz,I.,Mann,A.和Bambos,N.(2020)。用于设备端学习的分布式蒸馏。在 NeurIPS 中。

Bohdal,O.,Yang,Y.和Hospedales,T.(2020)。灵活的数据集蒸馏:学习标签而不是图像。arXiv 预印本 arXiv:2006.08572。

Boo,Y.,Shin,S.,Choi,J.和Sung,W.(2021)。随机精度集成:量化深度神经网络的自我知识蒸馏。在 AAAI 中。

Brutzkus,A.和Globerson,A.(2019)。为什么更大的模型泛化得更好?通过XOR问题的理论视角。在ICML中。

Bucilua,C.,Caruana,R.和Niculescu-Mizil,A.(2006)。模型压缩。在 SIGKDD 中。

Caccia,M.,Rodriguez,P.,Ostapenko,O.,Normandin,F.,Lin,M.,Caccia,L.,Laradji,I.,Rish,I.,Lacoste,A.,Vazquez D.和Charlin,L.(2020)。在线快速适应和知识积累(OSAKA):持续学习的新方法。在 NeurIPS 中。

Chan,W.,Ke,NR和Lane,I.(2015)。将知识从 RNN 转移到 DNN。arXiv 预印本 arXiv:1504.01483。

Chawla,A.,Yin,H.,Molchanov,P.和Alvarez,J.(2021)。用于目标检测的无数据知识蒸馏。在 WACV 中。

Chebotar,Y.和Waters,A.(2016)。从神经网络集合中提炼知识进行语音识别。在演讲中。

Chen, D., Mei, JP, Wang, C., Feng, Y. & Chen, C. (2020a)。与不同的同行进行在线知识提炼。在 AAAI 中。

Chen, D., Mei, JP, Zhang, Y., Wang, C., Wang, Z., Feng, Y., & Chen, C. (2021).具有语义校准的跨层蒸馏。在 AAAI 中。

Chen,G.,Choi,W.,Yu,X.,Han,T.和Chandraker,M.(2017)。通过知识蒸馏学习高效的目标检测模型。在 NeurIPS 中。

Chen, H., Wang, Y., Xu, C., Yang, Z., Liu, C., Shi, B., Xu, C., Xu, C.,&Tian, Q. (2019a).学生网络的无数据学习。在 ICCV 中。

Chen,H.,Wang,Y.,Xu,C.,Xu,C.和Tao,D.(2021)。通过特征嵌入学习学生网络。IEEE TNNLS,32(1),25-35。

Google 学术搜索

Chen,T.,Goodfellow,I.和Shlens,J.(2016)。Net2net:通过知识转移加速学习。在 ICLR 中。

Chen,W.C.,Chang,C.C.和Lee,CR(2018a)。使用特征图进行知识提炼,用于图像分类。在 ACCV 中。

Chen,X.,Zhang,Y.,Xu,H.,Qin,Z.和Zha,H.(2018b)。对抗性蒸馏,利用外部知识进行有效推荐。ACM TOIS,37(1),1-28。

Google 学术搜索

Chen,X.,Su,J.和Zhang,J.(2019b)。用于知识蒸馏的双师游记。在 ISNN 中。

Chen,Y.,Wang,N.和Zhang,Z.(2018c)。Darkrank:通过交叉样本相似性转移加速深度度量学习。在 AAAI 中。

Chen, Y. C., Gan, Z., Cheng, Y., Liu, J., & Liu, J. (2020b)。提炼在 BERT 中学到的知识以生成文本。在 ACL 中。

陈,Y.C.,林,Y.Y.,杨,MH,黄,JB(2019c)。Crdoco:具有跨域一致性的像素级域传输。在 CVPR 中。

Chen,Z.和Liu,B.(2018)。终身机器学习。人工智能和机器学习综合讲座,12(3),1-207。

Google 学术搜索

Chen,Z.,Zhu,L.,Wan,L.,Wang,S.,Feng,W.和Heng,PA(2020c)。用于半监督阴影检测的多任务平均教师。在 CVPR 中。

Cheng,Y.,Wang,D.,周,P.和Zhang,T.(2018)。深度神经网络的模型压缩和加速:原理、进展和挑战。IEEE信号处理杂志,35(1),126–136。

Google 学术搜索

Cheng,X.,Rao,Z.,Chen,Y.和Zhang,Q.(2020)。通过量化知识来解释知识蒸馏。在 CVPR 中。

Cho,JH和Hariharan,B.(2019)。论知识蒸馏的功效。在 ICCV 中。

乔莱特,F.(2017 年)。Xception:具有深度可分离卷积的深度学习。在 CVPR 中。

Chung,I.,Park,S.,Kim,J.和Kwak,N.(2020)。特征图级在线对抗性知识提炼。在ICML中。

Clark,K.,Luong,MT,Khandelwal,U.,Manning,CD&Le,QV(2019)。砰!用于自然语言理解的重生多任务网络。在 ACL 中。

Courbariaux,M.,Bengio,Y.和David,JP(2015)。Binaryconnect:在传播过程中使用二进制权重训练深度神经网络。在 NeurIPS 中。

克劳利,EJ,格雷,G.和Storkey,AJ(2018)。月光:用廉价的卷积蒸馏。在 NeurIPS 中。

崔,J.,金斯伯里,B.,Ramabhadran,B.,Saon,G.,Sercu,T.,Audhkhasi,K.等人(2017)。针对低资源语言的多语言模型集合进行知识提炼。在 ICASSP 中。

Cui,Z.,Song,T.,Wang,Y.和Ji,Q.(2020)。知识增强了用于关节面部表情和动作单元识别的深度神经网络。在 NeurIPS 中。

Cun,X.和Pun,CM(2020)。通过深度蒸馏进行散焦模糊检测。在 ECCV 中。

邓,J.,董,W.,索切尔,R.,李,L.J.,李,K.和飞飞,L.(2009)。Imagenet:一个大规模的分层图像数据库。在 CVPR 中。

Denton,EL,Zaremba,W.,Bruna,J.,LeCun,Y.和Fergus,R.(2014)。利用卷积网络中的线性结构进行有效评估。在 NeurIPS 中。

Devlin,J.,Chang,MW,Lee,K.和Toutanova,K.(2019)。Bert:用于语言理解的深度双向转换器的预训练。在 NAACL-HLT 中。

Ding,Q.,Wu,S.,Sun,H.,Guo,J.和Xia,ST(2019)。标签的自适应正则化。arXiv 预印本 arXiv:1908.05474。

Do,T.,Do,T.T.,Tran,H.,Tjiputra,E.和Tran,QD(2019)。紧凑的三线交互,用于视觉问答。在 ICCV 中。

Dong,X.和Yang,Y.(2019)。教师指导学生如何从部分标记的图像中学习面部标记检测。在 ICCV 中。

Dou,Q.,Liu,Q.,Heng,PA和Glocker,B.(2020)。通过知识蒸馏进行不配对的多模态细分。IEEE TMI,39(7),2415–2425。

Google 学术搜索

Du,S.,You,S.,Li,X.,Wu,J.,Wang,F.,Qian,C.和Zhang,C.(2020)。同意不同意:梯度空间中的自适应集成知识蒸馏。在 NeurIPS 中。

Duong,CN,Luu,K.,Quach,KG和Le,N.(2019。ShrinkTeaNet:通过缩小的师生网络实现百万级轻量级人脸识别。arXiv 预印本 arXiv:1905.10620。

Fakoor,R.,Mueller,JW,Erickson,N.,Chaudhari,P.和Smola,AJ(2020)。通过增强蒸馏获得快速、准确和简单的表格数据模型。在 NeurIPS 中。

Flennerhag,S.,Moreno,PG,Lawrence,ND和Damianou,A.(2019)。在学习过程中转移知识。在 ICLR 中。

Freitag,M.,Al-Onaizan,Y.和Sankaran,B.(2017)。用于神经机器翻译的集成蒸馏。arXiv 预印本 arXiv:1702.01802。

傅,H.,周,S.,杨,Q.,唐,J.,刘,G.,刘,K.和李,X.(2021)。LRC-BERT:自然语言理解的潜在表示对比知识蒸馏。在 AAAI 中。

Fukuda,T.,Suzuki,M.,Kurata,G.,Thomas,S.,Cui,J.和Ramabhadran,B.(2017)。从教师队伍中高效提炼知识。在演讲中。

Furlanello,T.,Lipton,Z.,Tschannen,M.,Itti,L.和Anandkumar,A.(2018)。重生的神经网络。在ICML中。

Gao,L.,Mi,H.,Zhu,B.,Feng,D.,Li,Y.和Peng,Y.(2019)。一种用于音频分类的对抗性特征蒸馏方法。IEEE 访问,7,105319–105330。

Google 学术搜索

Gao,M.,Wang,Y.和Wan,L.(2021)。基于残差的知识蒸馏。神经计算,433,154-161。

Google 学术搜索

Gao, Z., Chung, J., Abdelrazek, M., Leung, S., Hau, W. K., Xian, Z., et al. (2020).冠状动脉成像中用于血管边界检测的特权模式蒸馏。IEEE TMI,39(5),1524–1534。

Google 学术搜索

加西亚,NC,莫雷里奥,P.和穆里诺,V.(2018)。使用多个流网络进行模态蒸馏,用于动作识别。在 ECCV 中。

Ge,S.,Zhao,S.,Li,C.和Li,J.(2018)。通过选择性知识蒸馏在野外进行低分辨率人脸识别。IEEE TIP,28(4),2051–2062。

数学科学网

Google 学术搜索

Ge,S.,Zhao,S.,Li,C.,Zhang,Y.和Li,J.(2020)。通过桥式蒸馏实现高效的低分辨率人脸识别。IEEE TIP,29,6898–6908。

Google 学术搜索

Ghorbani,S.,Bulut,AE和Hansen,JH(2018)。使用特定领域的师生学习范式推进多重音 lstm-ctc 语音识别。在 SLTW 中。

Gil,Y.,Chai,Y.,Gorodissky,O.和Berant,J.(2019)。白到黑:黑匣子对抗性攻击的有效蒸馏。在 NAACL-HLT 中。

Goldblum,M.,Fowl,L.,Feizi,S.和Goldstein,T.(2020)。对抗性稳健的蒸馏。在 AAAI 中。

Gong,C.,Chang,X.,Fang,M.和Yang,J.(2018)。通过广义蒸馏教授半监督分级器。在IJCAI中。

Gong,C.,Tao,D.,Liu,W.,Liu,L.和Yang,J.(2017)。通过教与学和学教的标签传播。TNNLS,28(6),1452–1465。

Google 学术搜索

Goodfellow,I.,Pouget-Abadie,J.,Mirza,M.,Xu,B.,Warde-Farley,D.,Ozair,S.,Courville,A.和Bengio,Y.(2014)。生成对抗网络。在 NeurIPS 中。

Gordon,MA和Duh,K.(2019)。将序列级知识蒸馏解释为神经机器翻译的数据增强。arXiv 预印本 arXiv:1912.03334。

Gu,J.和Tresp,V.(2020)。寻找更好的学生来学习精炼的知识。在ECAI中。

Guan,Y.,Zhao,P.,Wang,B.,Zhang,Y.,Yao,C.,Bian,K.和Tang,J.(2020)。用于知识蒸馏的可微特征聚合搜索。在 ECCV 中。

郭,Q.,王,X.,吴,Y.,于,Z.,梁,D.,胡,X.和罗,P.(2020)。通过协作学习进行在线知识提炼。在 CVPR 中。

Gupta,S.,Hoffman,J.和Malik,J.(2016)。用于监督转移的跨模式蒸馏。在 CVPR 中。

Hahn,S.和Choi,H.(2019)。自然语言处理中的自我知识蒸馏。在 RANLP 中。

Haidar,MA和Rezagholizadeh,M.(2019)。Textkd-gan:使用知识蒸馏和生成对抗网络生成文本。在加拿大人工智能会议上。

Han,S.,Pool,J.,Tran,J.和Dally,W.(2015)。学习权重和连接,实现高效的神经网络。在 NeurIPS 中。

Hao,W.和Zhang,Z.(2019)。用于视频动作识别的时空蒸馏密集连接网络。模式识别,92,13-24。

Google 学术搜索

Haroush, M., Hubara, I., Hoffer, E., & Soudry, D. (2020). The knowledge within: Methods for data-free model compression. In CVPR.

He, C., Annavaram, M., & Avestimehr, S. (2020a). Group knowledge transfer: Federated learning of large CNNs at the edge. In NeurIPS.

He, F., Liu, T., & Tao, D. (2020b). Why resnet works? residuals generalize. IEEE TNNLS, 31(12), 5349–5362.

MathSciNet

Google Scholar

He, K., Zhang, X., Ren, S. & Sun, J. (2016) Deep residual learning for image recognition. In CVPR.

He, T., Shen, C., Tian, Z., Gong, D., Sun, C. & Yan, Y. (2019). Knowledge adaptation for efficient semantic segmentation. In CVPR.

Heo, B., Kim, J., Yun, S., Park, H., Kwak, N., & Choi, J. Y. (2019a). A comprehensive overhaul of feature distillation. In ICCV.

Heo, B., Lee, M., Yun, S. & Choi, J. Y. (2019b). Knowledge distillation with adversarial samples supporting decision boundary. In AAAI.

Heo, B., Lee, M., Yun, S. & Choi, J. Y. (2019c). Knowledge transfer via distillation of activation boundaries formed by hidden neurons. In AAAI.

Hinton,G.,Vinyals,O.和Dean,J.(2015)。在神经网络中提炼知识。arXiv 预印本 arXiv:1503.02531。

Hoffman,J.,Gupta,S.和Darrell,T.(2016)。通过模态幻觉学习侧面信息。在 CVPR 中。

Hong,W.和Yu,J.(2019)。用于单阶段目标检测的 Gan-knowledge 蒸馏。arXiv 预印本 arXiv:1906.08467。

侯,Y.,马,Z.,刘,C.和Loy,CC.(2019)。通过自注意力蒸馏学习轻量级车道检测 cnns。在 ICCV 中。

侯,Y.,马,Z.,刘,C.,Hui,T.W.和Loy,C.C.(2020)。用于道路标记分割的区域间亲和力蒸馏。在 CVPR 中。

Howard,AG,Zhu,M.,Chen,B.,Kalenichenko,D.,Wang,W.,Weyand,T.,Andreetto,M.和Adam,H.(2017)。Mobilenets:用于移动视觉应用的高效卷积神经网络。arXiv 预印本 arXiv:1704.04861。

胡,H.,谢,L.,洪,R.和田,Q.(2020)。从无到有:用于跨模态哈希的无监督知识蒸馏。在 CVPR 中。

胡,M.,Peng,Y.,Wei,F.,Huang,Z.,Li,D.,Yang,N.等人(2018)。用于机器阅读理解的注意力引导答案蒸馏。在 EMNLP 中。

Huang,G.,Liu,Z.,Van,Der Maaten,L.和Weinberger,K.Q.(2017)。密集连接的卷积网络。在 CVPR 中。

Huang,M.,You,Y.,Chen,Z.,Qian,Y.和Yu,K.(2018)。序列模型的知识蒸馏。在演讲中。

Huang,Z.和Wang,N.(2017)。喜欢你喜欢的:通过神经元选择性转移进行知识提炼。arXiv 预印本 arXiv:1707.01219。

Huang,Z.,Zou,Y.,Bhagavatula,V.和Huang,D.(2020)。用于弱监督物体检测的综合注意力自蒸馏。在 NeurIPS 中。

Ioffe,S.和Szegedy,C.(2015)。批量归一化:通过减少内部协变量偏移来加速深度网络训练。在ICML中

Jang,Y.,Lee,H.,Hwang,SJ和Shin,J.(2019)。了解转移内容和转移地点。在ICML中。

Ji,G.和Zhu,Z.(2020)。宽神经网络中的知识蒸馏:风险约束、数据效率和不完善的教师。在 NeurIPS 中。

焦,X.,尹,Y.,尚,L.,江,X.,陈,X.,李,L.等人(2020)。Tinybert:提炼 bert 用于自然语言理解。在 EMNLP 中。

Jin,X.,Peng,B.,Wu,Y.,Liu,Y.,Liu,J.,Liang,D.,Yan,J.和胡,X.(2019)。通过路线约束优化进行知识蒸馏。在 ICCV 中。

Kang,M.,Mun,J.和Han,B.(2020)。通过神经架构搜索实现预言机知识蒸馏。在 AAAI 中。

Kim,J.,Park,S.和Kwak,N.(2018)。解释复杂网络:通过因子转移进行网络压缩。在 NeurIPS 中。

Kim,J.,Bhalgat,Y.,Lee,J.,Patel,C.和Kwak,N.(2019a)。QKD:量化感知知识蒸馏。arXiv 预印本 arXiv:1911.12491。

Kim,J.,Hyun,M.,Chung,I.和Kwak,N.(2019b)。用于在线互知蒸馏的特征融合。在ICPR中。

Kim,SW和Kim,HE(2017)。将知识转移到较小的网络,并失去班级距离。在 ICLRW 中。

Kim,Y.,Rush和AM(2016)。序列级知识蒸馏。在 EMNLP 中。

Kimura,A.,Ghahramani,Z.,Takeuchi,K.,Iwata,T.和Ueda,N.(2018)。通过伪示例优化从头开始对神经网络进行小样本学习。在 BMVC 中。

Kwon,K.,Na,H.,Lee,H.和Kim,NS(2020)。基于熵的自适应知识蒸馏。在 ICASSP 中。

Kong,H.,Zhao,J.,Tu,X.,Xing,J.,Shen,S.和Feng,J.(2019)。通过先验辅助人脸幻觉和残余知识蒸馏进行交叉分辨率人脸识别。arXiv 预印本 arXiv:1905.10777。

Krizhevsky,A.和Hinton,G.(2009)。从微小的图像中学习多层特征。

Krizhevsky,A.,Sutskever,I.和Hinton,GE(2012)。使用深度卷积神经网络进行图像网络分类。在 NeurIPS 中。

Kuncoro,A.,Ballesteros,M.,Kong,L.,Dyer,C.和Smith,NA(2016)。将贪婪依赖解析器的集合提炼成一个 mst 解析器。在 EMNLP 中。

Kundu,JN,Lakkakula,N.和Babu,RV(2019)。Um-adapt:使用对抗性跨任务蒸馏的无监督多任务适应。在 CVPR 中。

赖,K.H.,扎,D.,李,Y.和胡,X.(2020)。双重政策蒸馏。在IJCAI中。

Lan,X.,Zhu,X.和Gong,S.(2018)。自引用深度学习。在 ACCV 中。

Lee,H.,Hwang,SJ和Shin,J.(2019a)。重新思考数据增强:自我监督和自我蒸馏。arXiv 预印本 arXiv:1910.05872。

Lee,K.,Lee,K.,Shin,J.和Lee,H.(2019b)。在野外使用未标记的数据克服灾难性遗忘。在 ICCV 中。

Lee,K.,Nguyen,LT和Shim,B.(2019c)。随机性和跳过连接可以改善知识传递。在 AAAI 中。

Lee,S.和Song,B.(2019)。通过多头注意力网络进行基于图的知识蒸馏。在 BMVC 中。

Lee,SH,Kim,DH和Song,BC(2018)。使用奇异值分解的自监督知识蒸馏。在 ECCV 中。

Li, B., Wang, Z., Liu, H., Du, Q., Xiao, T., Zhang, C., & Zhu, J. (2021).从深度转换器学习轻量级转换模型。在 AAAI 中。

Li, C., Peng, J., Yuan, L., Wang, G., Liang, X., Lin, L., & Chang, X. (2020a).具有知识蒸馏功能的块状监督神经架构搜索。在 CVPR 中。

Li, G., Zhang, J., Wang, Y., Liu, C., Tan, M., Lin, Y., Zhang, W., Feng, J., & Zhang, T. (2020b).残余蒸馏:迈向无捷径的便携式深度神经网络。在 NeurIPS 中。

Li,J.,Fu,K.,Zhao,S.和Ge,S.(2019)。用于有效估计航拍视频显著性的时空知识蒸馏。IEEE TIP,29,1902-1914。

数学科学网

Google 学术搜索

Li, M., Lin, J., Ding, Y., Liu, Z., Zhu, J. Y., & Han, S. (2020c)。GaN 压缩:交互式条件 GAN 的高效架构。在 CVPR 中。

Li,Q.,Jin,S.和Yan,J.(2017)。模仿非常有效的目标检测网络。在 CVPR 中。

Li, T., Li, J., Liu, Z., & Zhang, C. (2020d)。少量样本知识蒸馏,实现高效网络压缩。在 CVPR 中。

Li, X., Wu, J., Fang, H., Liao, Y., Wang, F., & Qian, C. (2020e).知识蒸馏的局部相关性一致性。在 ECCV 中。

Li,Z.和Hoiem,D.(2017)。不忘事地学习。IEEE TPAMI,40(12),2935–2947。

Google 学术搜索

Lin,T.,Kong,L.,Stich,S.U.和Jaggi,M.(2020)。集成蒸馏,用于联邦学习中的鲁棒模型融合。在 NeurIPS 中。

Liu,IJ,Peng,J.和Schwing,AG(2019a)。知识流:提高你的老师。在 ICLR 中。

Liu, J., Chen, Y. & Liu, K. (2019b)。利用基本事实:一种基于对抗性模仿的知识蒸馏方法,用于事件检测。在 AAAI 中。

Liu, J., 温, D., Gao, H., Tao, W., Chen, T. W., Osa, K., et al. (2019c).知识表示:高效、稀疏地表示用于知识蒸馏的先验知识。在 CVPRW 中。

Liu,P.,King,I.,Lyu,M.R.和Xu,J.(2019d)。DDFlow:使用未标记的数据蒸馏学习光流。在 AAAI 中。

刘,P.,刘,W.,马,H.,梅,T.和Seok,M.(2020a)。Ktan:知识转移对抗网络。在IJCNN中。

Liu, Q., Xie, L., Wang, H., Yuille & A. L. (2019e)。语义感知知识保存,用于基于零样本草图的图像检索。在 ICCV 中。

Liu,R.,Fusi,N.和Mackey,L.(2018)。使用生成对抗网络对压缩进行建模。arXiv 预印本 arXiv:1812.02271。

Liu,W.,周,P.,Zhao,Z.,Wang,Z.,邓,H.和Ju,Q.(2020b)。FastBERT:具有自适应推理时间的自蒸馏 BERT。在 ACL 中。

Liu,X.,Wang,X.和Matwin,S.(2018b)。通过知识蒸馏提高深度神经网络的可解释性。在ICDMW中。

Liu,X.,He,P.,Chen,W.和Gao,J.(2019f)。通过知识蒸馏改进多任务深度神经网络,实现自然语言理解。arXiv 预印本 arXiv:1904.09482。

刘,Y.,曹,J.,李,B.,袁,C.,胡,W.,李,Y.和段,Y.(2019g)。通过实例关系图进行知识提炼。在 CVPR 中。

Liu,Y.,Chen,K.,Liu,C.,Qin,Z.,Luo,Z.和Wang,J.(2019h)。用于语义分割的结构化知识蒸馏。在 CVPR 中。

Liu, Y., Jia, X., Tan, M., Vemulapalli, R., Zhu, Y., Green, B., et al. (2019i).搜索提炼:珍珠无处不在,但眼睛却无处不在。在 CVPR 中。

Liu,Y.,Zhang,W.和Wang,J.(2020c)。自适应多教师多层次知识提炼。神经计算,415,106-113。

Google 学术搜索

Lopes,RG,Fenu,S.和Starner,T.(2017)。深度神经网络的无数据知识蒸馏。在 NeurIPS 中。

Lopez-Paz,D.,Bottou,L.,Schölkopf,B.和Vapnik,V.(2016)。统一蒸馏和特权信息。在 ICLR 中。

Lu,L.,Guo,M.和Renals,S.(2017)。小占地面积高速公路网络的知识蒸馏。在 ICASSP 中。

Luo,P.,Zhu,Z.,Liu,Z.,Wang,X.和Tang,X.(2016)。通过从神经元中提取知识来对人脸模型进行压缩。在 AAAI 中。

Luo,S.,Pan,W.,Wang,X.,Wang,D.,Tang,H.和Song,M.(2020)。通过竞争进行合作:自我协调的知识融合,促进多人才学生的学习。在 ECCV 中。

Luo,S.,Wang,X.,Fang,G.,胡,Y.,Tao,D.和Song,M.(2019)。通过共同特征学习从异构网络中融合知识。在IJCAI中。

罗,Z.,谢,J.T.,江,L.,卡洛斯·尼布尔斯,J.和飞飞,L.(2018)。使用特权模式进行动作检测的图形蒸馏。在 ECCV 中。

Macko,V.,Weill,C.,Mazzawi,H.和Gonzalvo,J.(2019)。通过集成学习改进神经架构搜索图像分类器。在 NeurIPS 研讨会上。

马,J.和Mei,Q.(2019)。通过多任务知识提炼进行图表示学习。arXiv 预印本 arXiv:1911.05700。

马,N.,张,X.,郑,HT和Sun,J.(2018)。Shufflenet v2:高效 CNN 架构设计的实用指南。在 ECCV 中。

Meng,Z.,Li,J.,Zhao,Y.和Gong,Y.(2019)。有条件的师生学习。在 ICASSP 中。

Micaelli,P.和Storkey,AJ(2019)。通过对抗性信念匹配实现零样本知识转移。在 NeurIPS 中。

Minami,S.,Hirakawa,T.,Yamashita,T.和Fujiyoshi,H.(2019)。用于深度协作学习的知识转移图。arXiv 预印本 arXiv:1909.04286。

Mirzadeh,SI,Farajtabar,M.,Li,A.和Ghasemzadeh,H.(2020)。通过教师助理改进知识提炼。在 AAAI 中。

Mishra,A.和Marr,D.(2018)。学徒:使用知识提炼技术提高低精度网络精度。在 ICLR 中。

Mobahi,H.,Farajtabar,M.和Bartlett,PL(2020)。自蒸馏放大了希尔伯特空间中的正则化。在 NeurIPS 中。

Mou,L.,Jia,R.,Xu,Y.,Li,G.,Zhang,L.和Jin,Z.(2016)。提炼词嵌入:一种编码方法。在 CIKM.

Mukherjee,P.,Das,A.,Bhunia,AK和Roy,PP(2019)。认知网络:通过深度视觉感知进行认知特征学习。在 ICIP.

Mullapudi,RT,Chen,S.,Zhang,K.,Ramanan,D.和Fatahalian,K.(2019)。在线模型蒸馏,实现高效的视频推理。在 ICCV 中。

Muller,R.,Kornblith,S.和Hinton,GE(2019)。标签平滑何时有帮助?在 NeurIPS 中。

Mun,J.,Lee,K.,Shin,J.和Han,B.(2018)。学习专注于视觉问答的知识提炼。在 NeurIPS 中。

Munjal,B.,Galasso,F.和Amin,S.(2019)。用于端到端人员搜索的知识提炼。在 BMVC 中。

Nakashole,N.和Flauger,R.(2017)。双语词典归纳的知识蒸馏。在 EMNLP 中。

Nayak,GK,Mopuri,KR和Chakraborty,A.(2021)。任意传输集对无数据知识蒸馏的有效性。在 WACV 中。

Nayak,GK,Mopuri,KR,Shaj,V.,Babu,RV和Chakraborty,A.(2019)。深度网络中的零样本知识蒸馏。在ICML中。

Ng,R.W.,Liu,X.和Swietojanski,P.(2018)。师生培训,用于独立于文本的说话人识别。在 SLTW 中。

Nie,X.,Li,Y.,Luo,L.,Zhang,N.和Feng,J.(2019)。动态内核蒸馏,用于在视频中进行有效的姿态估计。在 ICCV 中。

Noroozi,M.,Vinjimoor,A.,Favaro,P.和Pirsiavash,H.(2018)。通过知识转移促进自我监督学习。在 CVPR 中。

诺瓦克,TS和Corso,JJ(2018)。深度网络分类:通过结构压缩分析网络层的重要性。arXiv 预印本 arXiv:1801.04651。

Oord, A., Li, Y., Babuschkin, I., Simonyan, K., Vinyals, O., Kavukcuoglu, K., et al. (2018).并行波网:快速高保真语音合成。在ICML中。

Pan,B.,Cai,H.,Huang,DA,Lee,KH,Gaidon,A.,Adeli,E.和Niebles,JC(2020)。用于视频字幕的时空图,具有知识蒸馏功能。在 CVPR 中

Pan,Y.,He,F.和Yu,H.(2019)。一种新型增强型协作自动编码器,具有知识蒸馏功能,适用于 top-n 推荐系统。神经计算,332,137-148。

Google 学术搜索

Papernot,N.,Abadi,M.,Erlingsson,U.,Goodfellow,I.和Talwar,K.(2017)。半监督知识转移,用于从私人训练数据中进行深度学习。在 ICLR 中。

Papernot,N.,McDaniel,P.,Wu,X.,Jha,S.和Swami,A.(2016)。蒸馏作为对深度神经网络对抗性扰动的防御。在 IEEE SP 中。

Park,S.和Kwak,N.(2020)。特征级集成知识提炼,用于聚合来自多个网络的知识。在ECAI中。

Park,W.,Kim,D.,Lu,Y.和Cho,M.(2019)。关系知识蒸馏。在 CVPR 中。

Passban,P.,Wu,Y.,Rezagholizadeh,M.和Liu,Q.(2021)。ALP-KD:用于知识蒸馏的基于注意力的层投影。在 AAAI 中。

Passalis,N.和Tefas,A.(2018)。通过概率知识转移学习深度表示。在 ECCV 中。

Passalis,N.,Tzelepi,M.和Tefas,A.(2020a)。用于轻量级深度表示学习的概率知识转移。TNNLS的。https://doi.org/10.1109/TNNLS.2020.2995884。

Passalis,N.,Tzelepi,M.和Tefas,A.(2020b)。使用信息流建模进行异构知识蒸馏。在 CVPR 中。

Peng, B., Jin, X., Liu, J., Li, D., Wu, Y., Liu, Y., et al. (2019a).知识蒸馏的相关性一致性。在 ICCV 中。

Peng,H.,Du,H.,Yu,H.,Li,Q.,Liao,J.和Fu,J.(2020)。精华:提炼用于一次性神经架构搜索的优先路径。在 NeurIPS 中。

Peng,Z.,Li,Z.,Zhang,J.,Li,Y.,Qi,G.J.和Tang,J.(2019b)。具有知识转移的少镜头图像识别。在 ICCV 中。

Perez,A.,Sanguineti,V.,Morerio,P.和Murino,V.(2020)。使用声学图像的视听模型蒸馏。在 WACV 中。

Phuong,M.和Lampert,CH(2019a)。走向理解知识蒸馏。在ICML中。

Phuong,M.和Lampert,CH(2019b)。基于蒸馏的多出口架构培训。在 ICCV 中。

Pilzer,A.,Lathuiliere,S.,Sebe,N.和Ricci,E.(2019)。精炼和蒸馏:利用循环不一致和知识蒸馏进行无监督单目深度估计。在 CVPR 中。

Polino,A.,Pascanu,R.和Alistarh,D.(2018)。通过蒸馏和量化对模型进行压缩。在 ICLR 中。

Price,R.,Iso,K.和Shinoda,K.(2016)。聪明的老师可以训练更好的 DNN 声学模型。EURASIP音频,语音和音乐处理杂志,2016(1),10。

Google 学术搜索

Radosavovic,I.,Dollar,P.,Girshick,R.,Gkioxari,G.和He,K.(2018)。数据提炼:迈向全监督学习。在 CVPR 中。

Radosavovic,I.,Kosaraju,RP,Girshick,R.,He,K.和Dollar P.(2020)。设计网络设计空间。在 CVPR 中。

Roheda,S.,Riggan,BS,Krim,H.&Dai,L.(2018)。跨模态蒸馏:条件生成对抗网络的案例。在 ICASSP 中。

Romero,A.,Ballas,N.,Kahou,SE,Chassang,A.,Gatta,C.和Bengio,Y.(2015)。Fitnets:薄深网的提示。在 ICLR 中。

Ross,AS和Doshi-Velez,F.(2018)。通过正则化深度神经网络的输入梯度来提高其对抗鲁棒性和可解释性。在 AAAI 中。

Ruder,S.,Ghaffari,P.和Breslin,J.G.(2017)。知识适应:教学适应。arXiv 预印本 arXiv:1702.02052。

Sandler,M.,Howard,A.,Zhu,M.,Zhmoginov,A.和Chen,LC(2018)。Mobilenetv2:倒置残差和线性瓶颈。在 CVPR 中。

Sanh,V.,Debut,L.,Chaumond,J.和Wolf,T.(2019)。Distilbert,bert的蒸馏版本:更小,更快,更便宜,更轻。arXiv 预印本 arXiv:1910.01108。

Saputra,MRU,de Gusmao,PP,Almalioglu,Y.,Markham,A.和Trigoni,N.(2019)。从深度姿态回归器网络中提炼知识。在 ICCV 中。

Sau,BB和Balasubramanian,VN(2016)。深度模型压缩:从嘈杂的老师那里提炼知识。arXiv 预印本 arXiv:1610.09650。

Seo,H.,Park,J.,Oh,S.,Bennis,M.和Kim,SL(2020)。联邦知识蒸馏。arXiv 预印本 arXiv:2011.02367。

Shakeri,S.,Sethy,A.和Cheng,C.(2019)。文档检索中的知识提炼。arXiv 预印本 arXiv:1911.11065。

Shen,C.,Wang,X.,Song,J.,Sun,L.和Song,M.(2019a)。将知识融合到综合分类中。在 AAAI 中。

Shen,C.,Wang,X.,Yin,Y.,Song,J.,Luo,S.和Song,M.(2021)。渐进式网络嫁接,实现小样本知识蒸馏。在 AAAI 中。

Shen,C.,Xue,M.,Wang,X.,Song,J.,Sun,L.和Song,M.(2019b)。通过自适应知识融合,从异构教师定制学生网络。在 ICCV 中。

Shen,J.,Vesdapunt,N.,Boddeti,V.N.和Kitani,KM(2016)。在老师中,我们信任:学习行人检测的压缩模型。arXiv 预印本 arXiv:1612.00478。

Shen,P.,Lu,X.,Li,S.和Kawai,H.(2018)。基于知识提炼的短话语的特征表示,用于口语识别。在演讲中。

Shen,P.,Lu,X.,Li,S.和Kawai,H.(2020)。基于知识蒸馏的表征学习,用于短话语口语识别。IEEE/ACM 音频语音和语言汇刊,28,2674–2683。

Google 学术搜索

Shen,P.,Lu,X.,Li,S.和Kawai,H.(2019c)。短话语口语识别的师生模型互动学习.在 ICASSP 中。

Shen,Z.,He,Z.和Xue,X.(2019d)。膳食:通过对抗性学习进行多模型集成。在 AAAI 中。

Shi,B.,Sun,M.,Kao,CC,Rozgic,V.,Matsoukas,S.和Wang,C.(2019a)。通过量化蒸馏压缩声学事件检测模型。在演讲中。

Shi,B.,Sun,M.,Kao,CC.,Rozgic,V.,Matsoukas,S.和Wang,C.(2019b)。基于三重训练的半监督声学事件检测。在 ICASSP 中。

Shi,Y.,Hwang,M.Y.,Lei,X.和Sheng,H.(2019c)。具有信任正则化的循环神经网络语言建模的知识蒸馏。在 ICASSP 中。

Shin,S.,Boo,Y.和Sung,W.(2019)。量化深度神经网络优化知识蒸馏技术的实证分析.arXiv 预印本 arXiv:1909.01688。

Shmelkov,K.,Schmid,C.和Alahari,K.(2017)。物体检测器的增量学习,不会造成灾难性遗忘。在 ICCV 中。

Shu,C.,Li,P.,Xie,Y.,Qu,Y.,Dai,L.和马,L.(2019)。知识挤压对抗性网络压缩。arXiv 预印本 arXiv:1904.05100。

暹罗,M.,江,C.,卢,S.,佩特里奇,L.,贾迈勒,M.,埃尔霍西尼,M.等人(2019)。在人机交互 (HRI) 设置中使用师生适应的视频对象分割。在ICRA中。

Sindhwani,V.,Sainath,T.和Kumar,S.(2015)。用于小规模深度学习的结构化转换。在 NeurIPS 中。

Silver,D.,Huang,A.,Maddison,CJ,Guez,A.,Sifre,L.,Van Den Driessche,G.和Dieleman,S.(2016)。掌握具有深度神经网络和树搜索的围棋游戏。自然,529(7587),484-489。

Song,X.,Feng,F.,Han,X.,Yang,X.,Liu,W.和Nie,L.(2018)。神经兼容性建模与细心的知识蒸馏。在SIGIR中。

Srinivas,S.和Fleuret,F.(2018)。使用雅可比匹配的知识转移。在ICML中。

Su,JC和Maji,S.(2017)。使用蒸馏使模型适应信号降解。在 BMVC 中。

Sun, L., Gou, J., Yu, B., Du, L., & Tao, D. (2021) 通过多重知识转移进行师生协作学习。arXiv 预印本 arXiv:2101.08471。

Sun,S.,Cheng,Y.,Gan,Z.和Liu,J.(2019)。用于 bert 模型压缩的患者知识蒸馏。在 NEMNLP-IJCNLP 中。

Sun,P.,Feng,W.,Han,R.,Yan,S.和温,Y.(2019)。优化 GPU 集群上分布式 dnn 训练的网络性能:1.5 分钟内完成 Imagenet/alexnet 训练。arXiv 预印本 arXiv:1902.06855。

Takashima,R.,Li,S.和Kawai,H.(2018)。CTC声学模型知识蒸馏方法的研究。在 ICASSP 中。

Tan,H.,Liu,X.,Liu,M.,Yin,B.和Li,X.(2021)。KT-GAN:用于文本到图像合成的知识转移生成对抗网络。IEEE TIP,30,1275–1290。

Google 学术搜索

Tan,M.,Chen,B.,Pang,R.,Vasudevan,V.,Sandler,M.,Howard,A.和Le,Q.V.(2019)。Mnasnet:适用于移动设备的平台感知神经架构搜索。在 CVPR 中。

Tan,M.和Le,Q.(2019)。EfficientNet:重新思考卷积神经网络的模型缩放。在ICML中。

Tan,X.,任,Y.,He,D.,Qin,T.,Zhao,Z.和Liu,T.Y.(2019)。具有知识蒸馏功能的多语言神经机器翻译。在 ICLR 中。

Tang,J.,Shivanna,R.,Zhao,Z.,Lin,D.,Singh,A.,Chi,EH和Jain,S.(2020)。理解和改进知识蒸馏。arXiv 预印本 arXiv:2002.03532。

Tang,J.和Wang,K.(2018)。排名蒸馏:学习具有高性能的紧凑排名模型,用于推荐系统。在 SIGKDD 中。

Tang,R.,Lu,Y.,Liu,L.,Mou,L.,Vechtomova,O.和Lin,J.(2019)。将 bert 中特定于任务的知识提炼成简单的神经网络。arXiv 预印本 arXiv:1903.12136。

Tarvainen,A.和Valpola,H.(2017)。平均教师是更好的榜样:权重平均一致性目标可以改善半监督深度学习结果。在 NeurIPS 中。

Thoker,FM和Gall,J.(2019)。用于动作识别的跨模态知识蒸馏。在 ICIP.

Tian,Y.,Krishnan,D.和Isola,P.(2020)。对比表示蒸馏。在 ICLR 中。

Tu,Z.,He,F.和Tao,D.(2020)。了解递归神经网络中的泛化。在学习表征国际会议上。ICLR的。

Tung,F.和Mori,G.(2019)。保持相似性的知识蒸馏。在 ICCV 中。

Turc,I.,Chang,MW,Lee,K.和Toutanova,K.(2019)。博览群书的学生学得更好:学生初始化对知识蒸馏的影响。arXiv 预印本 arXiv:1908.08962。

Urban,G.,Geras,KJ,Kahou,SE,Aslan,O.,Wang,S.,Caruana,R.,(2017)。深度卷积网络真的需要深度和卷积吗?在 ICLR 中。

Vapnik,V.和Izmailov,R.(2015)。使用特权信息进行学习:相似性控制和知识转移。机器学习研究杂志, 16(1), 2023–2049.

数学科学网

数学

Google 学术搜索

Vongkulbhisal,J.,Vinayavekhin,P.和Visentini-Scarzanella,M.(2019)。将异质分级机与蒸馏统一起来。在 CVPR 中。

Walawalkar,D.,Shen,Z.和Savvides,M.(2020)。使用知识蒸馏的在线集成模型压缩。在 ECCV 中。

Wang,C.,Lan,X.和Zhang,Y.(2017)。模型蒸馏,从人脸分类到对齐和验证的知识转移。arXiv 预印本 arXiv:1709.02929。

Wang,L.和Yoon,KJ(2020)。视觉智能的知识蒸馏和师生学习:回顾与新展望。arXiv 预印本 arXiv:2004.05937。

Wang,H.,Zhao,H.,Li,X.和Tan,X.(2018a)。用于神经网络加速的渐进式块状知识蒸馏。在IJCAI中。

Wang,J.,Bao,W.,Sun,L.,Zhu,X.,Cao,B.和Philip,S.Y.(2019a)。通过知识蒸馏进行私有模型压缩。在 AAAI 中。

Wang, J., Gou, L., Zhang, W., Yang, H., & Shen, H. W. (2019b)。Deepvid:通过知识蒸馏对图像分类器进行深度视觉解释和诊断。TVCG,25(6),2168–2180。

Google 学术搜索

Wang,M.,Liu,R.,Abe,N.,Uchida,H.,Matsunami,T.和Yamada,S.(2018b)。通过改进知识蒸馏,发现人脸识别模型压缩的有效策略。在 ICIP.

Wang,M.,Liu,R.,Hajime,N.,Narishige,A.,Uchida,H.和Matsunami,T.(2019c)。改进了用于训练快速低分辨率人脸识别模型的知识蒸馏。在 ICCVW 中。

Wang,T.,Yuan,L.,Zhang,X.和Feng,J.(2019d)。通过细粒度特征模拟来蒸馏目标检测器。在 CVPR 中。

Wang,T.,Zhu,J.Y.,Torralba,A.和Efros,AA(2018c)。数据集蒸馏。arXiv 预印本 arXiv:1811.10959。

王,W.,魏,F.,董,L.,包,H.,杨,N.和周,M.(2020a)。Minilm:深度自注意力蒸馏,用于对预训练的变压器进行与任务无关的压缩。在 NeurIPS 中。

Wang,W.,Zhang,J.,Zhang,H.,Hwang,M.Y.,Zong,C.&Li,Z.(2018d)。用于可维护对话管理器的师生框架。在 EMNLP 中。

Wang, X., Fu, T., Liao, S., Wang, S., Lei, Z., & Mei, T. (2020b)。用于人脸识别的排他性一致性正则化知识蒸馏。在 ECCV 中。

Wang,X.,胡,J.F.,Lai,J.H.,Zhang,J.&Zheng,W.S.(2019e)。渐进式师生学习,用于早期行动预测。在 CVPR 中。

Wang, X., Zhang, R., Sun, Y. & Qi, J. (2018e) Kdgan:使用生成对抗网络进行知识蒸馏。在 NeurIPS 中。

Wang,Y.,Xu,C.,Xu,C.和Tao,D.(2019f)。在频域中打包卷积神经网络。IEEE TPAMI,41(10),2495–2510。

Google 学术搜索

Wang,Y.,Xu,C.,Xu,C.和Tao,D.(2018f)。便携式学生网络的对抗性学习。在 AAAI 中。

Wang, Z. R., & Du, J. (2021)。CNN中用于中文文本识别的联合架构和知识蒸馏。模式识别,111,107722。

Google 学术搜索

Watanabe,S.,Hori,T.,Le Roux,J.和Hershey,J.R.(2017)。具有增强功能的师生网络学习。在 ICASSP 中。

Wei,HR,Huang,S.,Wang,R.,Dai,X.和Chen,J.(2019)。从神经机器翻译的检查点进行在线蒸馏。在 NAACL-HLT 中。

Wei,Y.,Pan,X.,Qin,H.,Ouyang,W.和Yan,J.(2018)。量化模拟:用于对象检测的非常小的 CNN。在 ECCV 中。

Wong,JH和Gales,M.(2016)。深度神经网络的序列师生训练。在演讲中。

Wu, B., Dai, X., Zhang, P., Wang, Y., Sun, F., Wu, Y., et al. (2019).Fbnet:通过可微分神经架构搜索实现硬件感知高效卷积网络设计。在 CVPR 中。

Wu, A., Zheng, W. S., Guo, X. & Lai, J. H. (2019a)。提炼人员重新识别:迈向更具可扩展性的系统。在 CVPR 中。

Wu,G.和Gong,S.(2021)。用于在线知识提炼的同伴协作学习。在 AAAI 中。

Wu,J.,Leng,C.,Wang,Y.,胡,Q.&Cheng,J.(2016)。用于移动设备的量化卷积神经网络。在 CVPR 中。

Wu, M. C., Chiu, C. T. & Wu, K. H. (2019b)。用于深度神经网络上压缩视频动作识别的多教师知识提炼。在 ICASSP 中。

Wu,X.,He,R.,胡,Y.和Sun,Z.(2020)。通过大规模的知识蒸馏来学习进化嵌入。国际计算机视觉杂志,1-18。

Xia,S.,Wang,G.,Chen,Z.和Duan,Y.(2018)。完整的基于随机森林的类噪声过滤学习,以提高分类器的泛化性。IEEE TKDE,31(11),2063–2078。

Google 学术搜索

Xie,J.,Lin,S.,Zhang,Y.和Luo,L.(2019)。使用廉价的卷积和在线蒸馏训练卷积神经网络。arXiv 预印本 arXiv:1909.13063。

Xie,Q.,Hovy,E.,Luong,MT和Le,Q.V.(2020)。使用 Noisy Student 进行自我训练可改进 ImageNet 分类。在 CVPR 中。

Xu,G.,Liu,Z.,Li,X.和Loy,CC(2020a)。知识蒸馏与自我监督相遇。在 ECCV 中。

Xu,K.,Rui,L.,Li,Y.和Gu,L.(2020b)。用于图像分类的特征标准化知识蒸馏。在 ECCV 中。

Xu,Z.,Wu,K.,Che,Z.,Tang,J.和Ye,J.(2020c)。多任务深度强化学习中的知识转移,用于持续控制。在 NeurIPS 中。

Xu,Z.,Hsu,Y.C.和Huang,J.(2018a)。训练浅层和薄层网络,通过条件对抗网络的知识蒸馏进行加速。在ICLR研讨会上。

Xu,Z.,Hsu,Y.C.和Huang,J.(2018b)。训练学生网络使用条件对抗网络进行加速。在 BMVC 中。

Xu,TB和Liu,CL(2019)。数据失真引导深度神经网络的自蒸馏。在 AAAI 中。

Yan,M.,Zhao,M.,Xu,Z.,Zhang,Q.,Wang,G.和Su,Z.(2019)。Vargfacenet:一种用于轻量级人脸识别的高效变量组卷积神经网络。在 ICCVW 中。

Yang,C.,Xie,L.,Qiao,S.和Yuille,A.(2019a)。几代人的知识蒸馏:更宽容的老师教育更好的学生。在 AAAI 中。

Yang,C.,Xie,L.,Su,C.和Yuille,A.L.(2019b)。快照蒸馏:一代人中的师生优化。在 CVPR 中。

Yang,J.,Martinez,B.,Bulat,A.和Tzimiropoulos,G.(2020a)。通过自适应实例规范化进行知识蒸馏。在 ECCV 中。

Yang, Y., Qiu, J., Song, M., Tao, D. & Wang, X. (2020b)。从图卷积网络中提炼知识。在 CVPR 中。

杨,Z.,寿,L.,龚,M.,林,W.和江,D.(2020c)。使用两阶段多教师知识蒸馏进行网络问答系统的模型压缩。在 WSDM 中。

Yao,A.和Sun,D.(2020)。通过密集的跨层相互蒸馏进行知识转移。在 ECCV 中。

姚,H.,张,C.,魏,Y.,江,M.,王,S.,黄,J.,Chawla,N.V.和Li,Z.(2020)。通过知识转移绘制小样本学习图。在 AAAI 中。

Ye,J.,Ji,Y.,Wang,X.,Gao,X.和Song,M.(2020)。通过组栈双 GAN 实现无数据知识融合。在 CVPR 中。

Ye,J.,Ji,Y.,Wang,X.,Ou,K.,Tao,D.和Song,M.(2019)。学生成为主人:用于联合场景解析、深度估计等的知识融合。在 CVPR 中。

Yim,J.,Joo,D.,Bae,J.和Kim,J.(2017)。知识蒸馏的礼物:快速优化、网络最小化和迁移学习。在 CVPR 中。

Yin,H.,Molchanov,P.,Alvarez,JM,Li,Z.,Mallya,A.,Hoiem,D.,Jha,Niraj K.和Kautz,J.(2020)。梦想提炼:通过 DeepInversion 进行无数据知识转移。在 CVPR 中。

Yoo,J.,Cho,M.,Kim,T.和Kang,U.(2019)。没有可观察数据的知识提取。在 NeurIPS 中。

You,S.,Xu,C.,Xu,C.和Tao,D.(2017)。从多个教师网络中学习。在 SIGKDD 中。

You,S.,Xu,C.,Xu,C.和Tao,D.(2018)。与单人多学生一起学习。在 AAAI 中。

You, Y., Li, J., Reddi, S., Hseu, J., Kumar, S., Bhojanapalli, S., et al. (2019).深度学习的大批量优化:在 76 分钟内训练 bert。在 ICLR 中。

Yu,L.,Yazici,V.O.,Liu,X.,Weijer,J.,Cheng,Y.和Ramisa,A.(2019)。教师的学习指标:用于图像嵌入的紧凑网络。在 CVPR 中。

Yu,X.,Liu,T.,Wang,X.和Tao,D.(2017)。关于通过低秩和稀疏分解压缩深度模型。在 CVPR 中。

袁,F.,寿,L.,裴,J.,林,W.,龚,M.,傅,Y.和江,D.(2021)。加强知识提炼的多教师选择。在 AAAI 中。

Yuan,L.,Tay,FE,Li,G.,Wang,T.&Feng,J.(2020)。重新审视知识蒸馏:一个没有教师的框架。在 CVPR 中。

Yuan,M.和Peng,Y.(2020)。CKD:用于文本到图像合成的跨任务知识蒸馏。IEEE TMM,22(8),1955–1968。

Google 学术搜索

Yue,K.,邓,J.和周,F.(2020)。匹配的引导蒸馏。在 ECCV 中。

Yun,S.,Park,J.,Lee,K.和Shin,J.(2020)。通过自我知识蒸馏规范化类预测。在 CVPR 中。

Zagoruyko,S.和Komodakis,N.(2017)。更加关注注意力:通过注意力转移提高卷积神经网络的性能。在 ICLR 中。

Zhai,M.,Chen,L.,Tung,F.,He,J.,Nawhal,M.和Mori,G.(2019)。终身 gan:条件图像生成的持续学习。在 ICCV 中。

Zhai,S.,Cheng,Y.,Zhang,Z.M.和Lu,W.(2016)。双卷积神经网络。在 NeurIPS 中。

Zhao,C.和Hospedales,T.(2020)。通过点对点蒸馏实现稳健的领域随机强化学习。在 NeurIPS 中。

Zhao, H., Sun, X., Dong, J., Chen, C., & Dong, Z. (2020a).突出每一步:通过协作教学提炼知识。IEEE TCYB的。https://doi.org/10.1109/TCYB.2020.3007506。

Zhao,L.,Peng,X.,Chen,Y.,Kapadia,M.和Metaxas,DN(2020b)。知识作为先验:没有高级知识的数据集的跨模态知识泛化。在 CVPR 中。

Zhao,M.,Li,T.,Abu Alsheikh,M.,Tian,Y.,Zhao,H.,Torralba,A.和Katabi,D.(2018)。使用无线电信号进行穿墙人体姿态估计。在 CVPR 中。

Zhang,C.&Peng,Y.(2018)。更好更快:通过图形蒸馏进行视频分类,从多个自监督学习任务中转移知识。在IJCAI中。

Zhang, F., Zhu, X. & Ye, M. (2019a)。快速人体姿势估计。在 CVPR 中。

Zhang,J.,Liu,T.和Tao,D.(2018)。深度学习的信息理论观点。arXiv 预印本 arXiv:1804.09060。

Zhang, H., 胡, Z., Qin, W., Xu, M., & Wang, M. (2021a).用于图像识别的对抗性共蒸馏学习。模式识别,111,107659。

Google 学术搜索

Zhang, L., Shi, Y., Shi, Z., 马, K., & Bao, C. (2020a).面向任务的特征蒸馏。在 NeurIPS 中。

Zhang,L.,Song,J.,Gao,A.,Chen,J.,Bao,C.和马,K.(2019b)。做你自己的老师:通过自我蒸馏提高卷积神经网络的性能。在 ICCV 中。

Zhang, M., Song, G., 周, H., & Liu, Y. (2020b).群体表征学习中的可判别性蒸馏。在 ECCV 中。

Zhang, S., Feng, Y., & Li, L. (2021b)。用于同声传换的未来引导增量变压器。在 AAAI 中。

Zhang, S., Guo, S., Wang, L., Huang, W., & Scott, M. R. (2020c)。用于行动识别的知识集成网络。在 AAAI 中。

Zhang, W., Miao, X., Shao, Y., 江, J., Chen, L., Ruas, O., & Cui, B. (2020d).在图卷积网络上进行可靠的数据蒸馏。在 ACM SIGMOD 中。

Zhang, X., Wang, X., Bian, J. W., Shen, C., & You, M. (2021c)。用于端到端人员搜索的多样化知识提炼。在 AAAI 中。

Zhang,X.,周,X.,Lin,M.和Sun,J.(2018a)。Shufflenet:一种用于移动设备的极其高效的卷积神经网络。在 CVPR 中。

Zhang, Y., Lan, Z., Dai, Y., Zeng, F., Bai, Y., Chang, J., & Wei, Y. (2020e).原有感知自适应蒸馏。在 ECCV 中。

Zhang,Y.,Xiang,T.,Hospedales,TM和Lu,H.(2018b)。深度互学。在 CVPR 中。

Zhang,Z.和Sabuncu,MR(2020)。自蒸馏作为特定于实例的标签平滑。在 NeurIPS 中。

Zhang, Z., Shi, Y., Yuan, C., Li, B., Wang, P., 胡, W., & Zha, Z. J. (2020f).带有教师推荐的视频字幕学习的对象关系图。在 CVPR 中。

周 C, Neubig G, Gu J (2019a) 理解非自回归机器翻译中的知识蒸馏。在 ICLR 中。

周,G.,Fan,Y.,Cui,R.,Bian,W.,Zhu,X.和Gai,K.(2018)。火箭发射:用于训练性能良好的光网的通用且有效的框架。在 AAAI 中。

周, J., Zeng, S. & Zhang, B. (2019b) 由单教师单学生模型监督的两阶段图像分类。在 BMVC 中。

周,P.,Mai,L.,Zhang,J.,Xu,N.,Wu,Z.和Davis,L.S.(2020)。M2KD:用于增量学习的多模型和多层次知识提炼。在 BMVC 中。

Zhu,M.,Han,K.,Zhang,C.,Lin,J.和Wang,Y.(2019)。通过深度特征蒸馏实现低分辨率视觉识别。在 ICASSP 中。

Zhu,X.和Gong,S.(2018)。通过即时本地合奏进行知识蒸馏。在 NeurIPS 中。

下载参考资料

确认
这项工作得到了澳大利亚研究委员会项目FL-170100117、IH-180100002、IC-190100031和中国国家自然科学基金61976107的部分支持。

作者信息
作者和单位
江苏大学计算机科学与通信工程学院, 工业网络空间安全技术江苏省重点实验室, 江苏省212013镇江市

郭建平

悉尼大学工程学院计算机科学学院,新南威尔士州达灵顿,2008年,澳大利亚

郭建平, 俞宝生 & 陶大成

伦敦大学伯克贝克学院计算机科学与信息系统系,英国伦敦

斯蒂芬·马来亚班克

通讯作者
与陶大成的通信。

其他信息:
由Minsu Cho传达。

出版商注
施普林格·自然(Springer Nature)对已出版地图和机构隶属关系中的管辖权主张保持中立。

权利和权限
转载和许可

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值