2020知识蒸馏 《Channel Distillation: Channel-Wise Attention for Knowledge Distillation》论文笔记

  论文地址:Channel Distillation: Channel-Wise Attention for Knowledge Distillation, Zaida Zhou, Chaoran Zhuge, Xinwei Guan, Wen Liu, 2020.

摘要

  In this paper, we propose a new distillation method, which contains two transfer distillation strategies and a loss decay strategy.
 本文提出了两种传输蒸馏策略和一种损失衰减策略。

  • Channel Distillation (CD)渠道蒸馏
  • Guided Knowledge Distillation (GKD)知识引导蒸馏
  • Early Decay Teacher (EDT)早期教师的衰减
    在这里插入图片描述

问题

  1. 知识传输过程不够准确--------(CD)
  2. 教师网络预测存在的误差---------(GKD)
  3. 教师学生网络结构不同,用老师监督学生,可能找不到学生的优化空间----------(EDT)
1.Channel Distillation (CD)渠道蒸馏

图片
  wc是特征图第c个通道所有激活值的和,H、W是特征图的长宽。

  教师和学生的特征图大小不同,用1*1卷积核提升学生的维度。然后进行CD操作。

在这里插入图片描述
  定义CD,其中wij表示第i个样本对应的特征图第j个通道。

在这里插入图片描述

2.Guided Knowledge Distillation (GKD)知识引导蒸馏

  GKD是在KD(知识蒸馏)的基础上,只用教师预测正确的数据作为指导。

在这里插入图片描述

  KD(知识蒸馏)公式如上,T表示温度。用KL散度刻画学生和老师输出分布差距。

在这里插入图片描述
  其中I是指示函数。GKD只累计老师预测正确的样本。这是因为在一些训练集中,样本的类别高达上万个,普遍预测模型正确的概率也仅有25%左右,所以教师网络出错概率很大(不同数据集上检测结果不同,这里25%指JFT数据集的预测)。

在这里插入图片描述

3.Early Decay Teacher (EDT)早期教师的衰减

  教师网络监督学生网络训练,但在后期会一定程度的抑制学生学习,故需要慢慢衰减教师的监控力度。因子定义如下:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4.损失函数

  整合前面1,2,3部分得到总的损失函数:

在这里插入图片描述
在这里插入图片描述
  只衰减CD损失,其中GKD损失是正确的预测,故不衰减GKD。
在这里插入图片描述
  整个过程如下:
在这里插入图片描述
在这里插入图片描述

实验

  数据集:ImageNet,选取类1000个

  模型:ResNet18(学生),ResNet34(老师)
在这里插入图片描述
在这里插入图片描述
  数据集:CIFAR100,选取类100(个人感觉实验数据的分类较少)
  模型:ResNet152(学生),ResNet50(老师)
在这里插入图片描述
在这里插入图片描述

  数据集:ImageNet
  模型:ResNet152(学生),ResNet50(老师)

在这里插入图片描述
  结果达到了公认水平,出错率达到了最低。

论文地址:2020 Channel Distillation: Channel-Wise Attention for Knowledge Distillation.

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值