Like What You Like: Knowledge Distill via Neuron Selectivity Transfer论文初读

本文提出了一种名为Neuron Selectivity Transfer (NST)的知识蒸馏新方法,通过匹配教师和学生网络的神经元选择样式分布来改善知识迁移。NST解决了传统知识蒸馏忽视神经元选择性特性的不足,尤其适用于视觉任务,如分类和检测。实验证明,NST与知识蒸馏结合能取得最优效果。
摘要由CSDN通过智能技术生成

目录

摘要

引言

相关工作

  深度网络压缩与加速

  知识蒸馏

  领域自适应

准备知识

  一些符号

  MMD(Maximum Mean Discrepancy)

神经元选择性迁移

  出发点

  公式

  讨论

实验

  在分类数据集上

  在检测数据集上

讨论

  不同KT的分析

  MMD以外的方法

结论


摘要

将知识迁移看成一种分布匹配问题

通过用一种新的损失函数最小化teacher与student网络间的Maximum Mean Discrepancy (MMD) metric来解决这个分布问题

引言

  • 出发点

神经元具有知识选择性特性,比如神经元只对特定的区域或者样本感兴趣,所以作者提出了对齐teacher和student网络间的神经元选择样式分布

最终的损失函数为交叉熵损失和MMD的和

  • 本文的贡献

提出了一种新的知识迁移的观点(对其选择样式分布),并提出了新的名叫 Neuron Selectivity Transfer (NST)的蒸馏的方法

在很多数据集上测试,并证明了提出的方法有效

表明提出的方法与其他的知识蒸馏的方法结合

表明知识迁移的方法可以帮助学习更好的特征,并且在其他的视觉任务中(比如目标检测)也可以获益

相关工作

  深度网络压缩与加速

网络裁剪:

  小数量级的权重是不重要的,可以裁剪,需要特殊的实现

  将裁剪看作子集选择和稀疏优化问题

量化和低秩近似

这些方法都可以与作者提出的方法结合

  知识蒸馏

KD的优点:软标签一方面可以捕捉类内的变化,另一方面还可以类间的相似性;

KD的缺点:假如是二分类,那么可供蒸馏的信息就很少

Fitnets可以通过中间层的监督来解决KD的问题,但要求严格,当teacher和student能力相差太大,可能会差生不利的影响

AT可以通过注意力机制,只蒸馏与目标强相关的神经元去蒸馏,解决Fitnets的问题,后面会讲到这是作者提出的方法的特殊情况

Flow of Solution Procedure (FSP)计算了两个不同层的特征的Gram matrix,他们认为FSP矩阵可以反应老师教学生的过程

  领域自适应

解决的问题是当目标领域的没有标签的时候,如何利用已有的标签,通过对比并减少两个领域的分布差异来训练模型,核心问题是如何减少两个领域分布的差异

 在Reproducing Kernel Hilbert Space (RKHS)中, MaximumMeanDiscrepancy(MMD)被当作比较两个分布的一个指标

有的方法,通过重新分配样本的权重或者重新挑选样本来最小化两个分布的MMD

有的方法,通过在一个显式的低维潜在空间中测量MMD

还有的,用MMD去正则化原领域和新领域学到的特征

值得注意的是,风格迁移也是一种领域自适应问题ÿ

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值