发布平台:ICCV 2021
论文链接:https://arxiv.org/abs/2202.03680
代码链接:https://github.com/ADLab-AutoDrive/ICKD
创新点
此前的方法忽略了保留特征的通道间相关性的重要作用,导致在教师网络中缺乏捕捉特征空间的内在分布和特征的足够的多样性特征。
由于学习能力的差异,不能强迫学生模型教师的整个特征图。本文让学生网络模仿从教师那里学来的通道间的相关性。
提出知识提取通道间相关方法(ICKD),该方法可以使学生网络特征空间的多样性和同源性与教师网络的多样性与同源性相一致。如果这两个通道之间的相关性彼此无关,被解释为多样性,否则是同源性。
图像分类
红色框表示信道在感知和数学上是同源的(如,内积),橙色框表示信道是多样的。可视化的特征图显示网络中的特征多样性与同源性共存。
计算相关性
其中表示特征的第m个通道,将一个二维特征映射向量为一个长度为的向量,是一个度量输入对相关性的函数,其中使用内积。
矩阵乘法的方式重写上述公式,矩阵计算如下:
其中使空间维度变平。无论空间维度和如何,所得到的矩阵的大小都为。
在学生的特征上添加线性变换层
,
由1x1的卷积层和一个没有激活函数的BN层组成。当学生网络输出维数与教师网络不匹配时,可以适应来匹配的输出维数c。
损失函数
其中为交叉熵损失,和为权重因子。
图像分割
网络级通道相关性
将特征沿像素位置均匀划分为个部分,用,,表示。每个部分的尺寸是,其中和。每个部分的矩阵单独计算,然后聚合所有的矩阵。
损失函数
备注
1.对于图像分类,使用全局平均池化之前的特征图进行蒸馏。根据经验设置了等式中和
的权重因子分别是5到1和2.5。
2.如果学生的学习能力不匹配,他们可能无法赶上老师。
3.一个假设是,老师越好我们的学生就越好,这个假设几乎是合理的,但已被证明是不实际的,因为学生可能无法赶上老师。