CA-MKD：置信多教师知识蒸馏

最新推荐文章于 2024-09-15 17:22:56 发布

一瞬にして失う

最新推荐文章于 2024-09-15 17:22:56 发布

阅读量972

点赞数

分类专栏：多教师网络知识蒸馏迁移学习文章标签：知识蒸馏多教师置信度感知特征匹配中间层学习

本文链接：https://blog.csdn.net/qq_60445109/article/details/126719892

版权

知识蒸馏同时被 3 个专栏收录

10 篇文章 3 订阅

订阅专栏

迁移学习

9 篇文章 1 订阅

订阅专栏

多教师网络

4 篇文章 0 订阅

订阅专栏

问题：现有的研究主要通过对多个教师预测进行平均或使用其他无标签策略将其组合来整合来自不同来源的知识，这可能在低质量教师预测的情况下误导学生。

方法简介：1、提出了置信度感知的多教师知识蒸馏（CA-MKD），该方法借助于真实标签，自适应地为每个教师预测分配样本可靠性，并为这些教师预测分配大权重。

2、CA-MKD结合了中间层的特征，以稳定知识转移过程。

1、模型方法

CA-MKD框架

a、将 $D=\left \{x _{i} ,y_{i}\right \}_{i}^{N}$ 表示为标记训练集，N是样本数，K是教师数。 $F\in R^{h\times w\times c}$ 是最后一个网络块的输出。

b、将 $z=\left [ z^{1} ,...,z^{C}\right ]$ 表示为logits输出，其中C是类别标签。

最终的模型预测是通过具有温度 $\tau$ 的软最大函数 $\delta \left ( z^{c} \right )=\frac{\exp \left ( \frac{z^{c}}{\tau } \right )}{\sum_{j}\exp \left ( \frac{z^{j}}{\tau } \right )}$ 获得的。

1.1教师预测的损失函数

为了有效地聚合多个教师的预测分布，通过计算教师预测和真实标签之间的交叉熵损失，分配反映其样本置信度的不同权重

$\iota _{CE_{KD}}^{k}=-\sum_{c=1}^{C}y^{c}\log \left ( \sigma \left ( z_{T_{k}}^{c} \right ) \right )$

$w_{KD}^{k}=\frac{1}{K-1}\left ( 1-\frac{\exp \left ( \iota _{CE_{KD}}^{k} \right )}{\sum_{j}\exp \left ( \iota _{CE_{KD}}^{j} \right )} \right )$

其中 $T_{k}$ 表示第k个教师。 $\iota _{CE_{KD}}^{k}$ 越小对应于 $w_{KD}^{k}$ 越大。

教师的总体预测如下并用计算出的权重进行聚合：

$\iota _{KD}=-\sum_{k=1}^{K}w_{KD}^{k}\sum_{c=1}^{C}z_{T_{k}}^{c}\log \left ( \sigma \left ( z_{S}^{c} \right ) \right )$

预测更接近真实标签的教师将被分配更大的权重 $w_{KD}^{k}$ ，因为其有足够的信心做出准确判断，以正确指导。相反，如果我们简单地通过计算教师预测的熵来获得权重，则无论最高概率类别是否正确。

1.2中级教师特征的损失

除KD损失外，受FitNets的启发认为中间层也有利于学习结构知识，因此将方法扩展到中间层以挖掘更多信息。中间特征匹配的计算如下所示：

$z_{S}\rightarrow T_{k}=W_{T_{k}}h_{S}$

$\iota _{CE_{inter}}^{k}=-\sum_{c=1}^{C}y^{c}\log \left ( \sigma \left ( z_{S}^{c}\rightarrow T_{k} \right ) \right )$

$w_{inter}^{k}=\frac{1}{K-1}\left ( 1-\frac{\exp \left ( \iota _{CE_{inter}}^{k} \right )}{\sum_{j}\exp \left ( \iota _{CE_{inter}}^{j} \right )} \right )$

其中 $W_{T_{k}}$ 是第k个教师的最终分类器。

1、 $h_{S}\in R^{c}$ 是最后一个学生特征向量，即hS=AvgPooling（ $F_{S}$ ）。

2、 $\iota _{CE_{inter}}^{k}$ 通过将 $h_{S}$ 传递给每个教师分类器来获得。

3、 $w_{inter}^{k}$ 的计算类似于 $w_{KD}^{k}$ 的计算。

为了稳定知识转移过程，将学生设计为更专注于模仿具有相似特征空间的教师， $w_{inter}^{k}$ 实际上用作表示教师分类器在学生特征空间中的可辨别性的相似性度量。消融研究表明，利用 $w_{inter}^{k}$ 而不是 $w_{KD}^{k}$ 在中间层进行知识聚合更有效。

$\iota _{inter}=\sum_{k=1}^{K}w_{inter}^{k}\left \| F_{T_{k}}-r\left ( F_{S} \right ) \right \|_{2}^{2}$

1、r（·）是用于对齐学生和教师特征维度的函数。

2、 $\iota _{2}$ 损失函数用作中间特征的距离度量。

3、特征对之间的总体训练损失将由 $w_{inter}^{k}$ 汇总。

1.3总损失函数

除了上述两个损失外，还计算了具有真实标签的规则交叉熵：

$\iota _{CE}=-\sum_{c=1}^{C}y^{c}\log \left ( \sigma \left ( z_{S}^{c} \right ) \right )$

CA-MKD的总体损失函数总结如下：

$\iota =\iota _{CE}+\alpha \iota _{KD}+\beta \iota _{inter}$

其中α和β是超参数，用于平衡知识蒸馏和标准交叉熵损失的影响。