©Paperweekly 原创 · 作者 | An.
单位 | 中科院自动化所
研究方向 | 计算机视觉、模型压缩
论文标题:
Respecting Transfer Gap in Knowledge Distillation
论文链接:
https://arxiv.org/pdf/2210.12787.pdf
引言
知识蒸馏(KD)[1] 是指将知识从教师模型转移到学生模型,以提高学生模型性能的一种模型压缩方法。一个普遍的直觉是,一个更强大的教师应该会教出一个表现更好的学生。然而,最近的研究发现,大模型不一定是好教师 [2],早停或更小模型尺寸的教师反而能使学生获得更好的表现。
本文从域迁移的视角探究和分析了这一现象。作者认为 ground-truth(分类损失)和教师预测(蒸馏损失)的知识来自不同领域,其中存在着被过往方法忽视的转移差距。Ground-truth 所蕴含的知识所在的域可定义为“人类域(human domain)”,教师预测所蕴含的知识所在的域可定义为“机器域(machine domain)”。
通常来讲,数据集的构建会考虑类别样本的均衡问题,以 CIFAR100 为例,它包含 60000 张图像和 100 个类别,每个类别分别有 500 张训练图像和 100 张测试图像。
因此,人类域的知识在类别间是均衡的,即满足 (独立同分布)假设。而实验发现,教师预测的概率分布在类别间是不平衡的,无论是“强”还是“弱”的教师,由于转移差距的存在,教师预测尾部的类别的知识传递受阻