Like What You Like: Knowledge Distill via Neuron Selectivity Transfer论文初读

待墨痕干

于 2019-11-27 21:21:20 发布

阅读量2k

点赞数 2

文章标签：知识蒸馏

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_37665984/article/details/103269740

版权

本文提出了一种名为Neuron Selectivity Transfer (NST)的知识蒸馏新方法，通过匹配教师和学生网络的神经元选择样式分布来改善知识迁移。NST解决了传统知识蒸馏忽视神经元选择性特性的不足，尤其适用于视觉任务，如分类和检测。实验证明，NST与知识蒸馏结合能取得最优效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

深度网络压缩与加速

领域自适应

MMD（Maximum Mean Discrepancy）

神经元选择性迁移

在分类数据集上

在检测数据集上

不同KT的分析

MMD以外的方法

摘要

将知识迁移看成一种分布匹配问题

通过用一种新的损失函数最小化teacher与student网络间的Maximum Mean Discrepancy (MMD) metric来解决这个分布问题

引言

出发点

神经元具有知识选择性特性，比如神经元只对特定的区域或者样本感兴趣，所以作者提出了对齐teacher和student网络间的神经元选择样式分布

最终的损失函数为交叉熵损失和MMD的和

本文的贡献

提出了一种新的知识迁移的观点（对其选择样式分布），并提出了新的名叫 Neuron Selectivity Transfer (NST)的蒸馏的方法

在很多数据集上测试，并证明了提出的方法有效

表明提出的方法与其他的知识蒸馏的方法结合

表明知识迁移的方法可以帮助学习更好的特征，并且在其他的视觉任务中（比如目标检测）也可以获益

相关工作

深度网络压缩与加速

网络裁剪：

小数量级的权重是不重要的，可以裁剪，需要特殊的实现

将裁剪看作子集选择和稀疏优化问题

量化和低秩近似

这些方法都可以与作者提出的方法结合

知识蒸馏

KD的优点：软标签一方面可以捕捉类内的变化，另一方面还可以类间的相似性；

KD的缺点：假如是二分类，那么可供蒸馏的信息就很少

Fitnets可以通过中间层的监督来解决KD的问题，但要求严格，当teacher和student能力相差太大，可能会差生不利的影响

AT可以通过注意力机制，只蒸馏与目标强相关的神经元去蒸馏，解决Fitnets的问题，后面会讲到这是作者提出的方法的特殊情况

Flow of Solution Procedure (FSP)计算了两个不同层的特征的Gram matrix，他们认为FSP矩阵可以反应老师教学生的过程

领域自适应

解决的问题是当目标领域的没有标签的时候，如何利用已有的标签，通过对比并减少两个领域的分布差异来训练模型，核心问题是如何减少两个领域分布的差异

在Reproducing Kernel Hilbert Space (RKHS)中， MaximumMeanDiscrepancy(MMD)被当作比较两个分布的一个指标

有的方法，通过重新分配样本的权重或者重新挑选样本来最小化两个分布的MMD

有的方法，通过在一个显式的低维潜在空间中测量MMD

还有的，用MMD去正则化原领域和新领域学到的特征

值得注意的是，风格迁移也是一种领域自适应问题ÿ

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。