Motivation
目前大多数KD框架的pipeline
- 一张图片送入teacher和student得到各自的feature和output
- 然后定义loss,拉进feature或者output的距离
但是他们都是直接在一个整图级别上做的,student很难学习到teacher的那种处理类内和类间的能力
如下图:白色空心圈是期望学习到的效果
左边是期望类间可以拉开,右边是期望类内可以聚拢
Method
首先得到teacher和student的特征图
然后定义mapping函数计算特征之间的相关性矩阵correlation matrix,注意teacher和student是各自分开计算,而不是互相计算相关性
C就变成了一个nxn的矩阵
Lcc即计算相关性矩阵的L2 距离
Correlation matrix的计算
对比于MMD和Bilinear Pool,Gaussian RBF更加灵活和具有非线性能力,因此本文选择Gaussian RBF