发布平台:2020 CVPR
论文链接:https://ieeexplore.ieee.org/document/9157224
代码链接:https://github.com/alinlab/cs-kd
创新点
提出一种新的正则化方法来惩罚相似样本之间的预测分布,在训练过程中提取了同一标签的不同样本之间的预测分布,迫使它以类的方式产生更有意义的和一致的预测(通过约束相同类别的样本要输出尽可能相似的结果)。减轻了过度自信的预测,并减少了类内的变化。
传统正则化:基于图像输出的正则化。
本文正则化:基于类的输出正则化,即选取相同类别的不同图像。
传统知识蒸馏:利用相同样本经过两个网络(教师和学生)的输出。
本文知识蒸馏:利用相同类的不同样本经过相同网络的输出。
损失函数
输入和另一个随机采样的 具有相同的标签。和表示相同的标签文件。
KL表示Kullback-Leibler(KL)散度。
举例:和都是两张猫的照片,具有相同的类别,具体的猫的大小、位置、品种、颜色…可以不同。
总损失
是标准交叉熵损失,是类正则化的损失权重。注意,我们将温度的平方乘以原始KD。