论文笔记《Channel Distillation: Channel-Wise Attention for Knowledge Distillation》
摘要
In this paper, we propose a new distillation method, which contains two transfer distillation strategies and a loss decay strategy.
本文提出了两种传输蒸馏策略和一种损失衰减策略。
- Channel Distillation (CD)渠道蒸馏
- Guided Knowledge Distillation (GKD)知识引导蒸馏
- Early Decay Teacher (EDT)早期教师的衰减
问题
- 知识传输过程不够准确--------(CD)
- 教师网络预测存在的误差---------(GKD)
- 教师学生网络结构不同,用老师监督学生,可能找不到学生的优化空间----------(EDT)
1.Channel Distillation (CD)渠道蒸馏
wc是特征图第c个通道所有激活值的和,H、W是特征图的长宽。
教师和学生的特征图大小不同,用1*1卷积核提升学生的维度。然后进行CD操作。
定义CD,其中wij表示第i个样本对应的特征图第j个通道。
2.Guided Knowledge Distillation (GKD)知识引导蒸馏
GKD是在KD(知识蒸馏)的基础上,只用教师预测正确的数据作为指导。
KD(知识蒸馏)公式如上,T表示温度。用KL散度刻画学生和老师输出分布差距。
其中I是指示函数。GKD只累计老师预测正确的样本。这是因为在一些训练集中,样本的类别高达上万个,普遍预测模型正确的概率也仅有25%左右,所以教师网络出错概率很大(不同数据集上检测结果不同,这里25%指JFT数据集的预测)。
3.Early Decay Teacher (EDT)早期教师的衰减
教师网络监督学生网络训练,但在后期会一定程度的抑制学生学习,故需要慢慢衰减教师的监控力度。因子定义如下:
4.损失函数
整合前面1,2,3部分得到总的损失函数:
只衰减CD损失,其中GKD损失是正确的预测,故不衰减GKD。
整个过程如下:
实验
数据集:ImageNet,选取类1000个
模型:ResNet18(学生),ResNet34(老师)
数据集:CIFAR100,选取类100(个人感觉实验数据的分类较少)
模型:ResNet152(学生),ResNet50(老师)
数据集:ImageNet
模型:ResNet152(学生),ResNet50(老师)
结果达到了公认水平,出错率达到了最低。
论文地址:2020 Channel Distillation: Channel-Wise Attention for Knowledge Distillation.