目录
摘要
将知识迁移看成一种分布匹配问题
通过用一种新的损失函数最小化teacher与student网络间的Maximum Mean Discrepancy (MMD) metric来解决这个分布问题
引言
- 出发点
神经元具有知识选择性特性,比如神经元只对特定的区域或者样本感兴趣,所以作者提出了对齐teacher和student网络间的神经元选择样式分布
最终的损失函数为交叉熵损失和MMD的和
- 本文的贡献
提出了一种新的知识迁移的观点(对其选择样式分布),并提出了新的名叫 Neuron Selectivity Transfer (NST)的蒸馏的方法
在很多数据集上测试,并证明了提出的方法有效
表明提出的方法与其他的知识蒸馏的方法结合
表明知识迁移的方法可以帮助学习更好的特征,并且在其他的视觉任务中(比如目标检测)也可以获益
相关工作
深度网络压缩与加速
网络裁剪:
小数量级的权重是不重要的,可以裁剪,需要特殊的实现
将裁剪看作子集选择和稀疏优化问题
量化和低秩近似
这些方法都可以与作者提出的方法结合
知识蒸馏
KD的优点:软标签一方面可以捕捉类内的变化,另一方面还可以类间的相似性;
KD的缺点:假如是二分类,那么可供蒸馏的信息就很少
Fitnets可以通过中间层的监督来解决KD的问题,但要求严格,当teacher和student能力相差太大,可能会差生不利的影响
AT可以通过注意力机制,只蒸馏与目标强相关的神经元去蒸馏,解决Fitnets的问题,后面会讲到这是作者提出的方法的特殊情况
Flow of Solution Procedure (FSP)计算了两个不同层的特征的Gram matrix,他们认为FSP矩阵可以反应老师教学生的过程
领域自适应
解决的问题是当目标领域的没有标签的时候,如何利用已有的标签,通过对比并减少两个领域的分布差异来训练模型,核心问题是如何减少两个领域分布的差异
在Reproducing Kernel Hilbert Space (RKHS)中, MaximumMeanDiscrepancy(MMD)被当作比较两个分布的一个指标
有的方法,通过重新分配样本的权重或者重新挑选样本来最小化两个分布的MMD
有的方法,通过在一个显式的低维潜在空间中测量MMD
还有的,用MMD去正则化原领域和新领域学到的特征
值得注意的是,风格迁移也是一种领域自适应问题ÿ