CA-MKD:置信多教师知识蒸馏

问题:现有的研究主要通过对多个教师预测进行平均或使用其他无标签策略将其组合来整合来自不同来源的知识,这可能在低质量教师预测的情况下误导学生。

方法简介:1、提出了置信度感知的多教师知识蒸馏(CA-MKD),该方法借助于真实标签,自适 应地为每个教师预测分配样本可靠性,并为这些教师预测分配大权重

                  2、CA-MKD结合了中间层的特征,以稳定知识转移过程。

1、模型方法

CA-MKD框架

 

a、将D=\left \{x _{i} ,y_{i}\right \}_{i}^{N}表示为标记训练集,N是样本数,K是教师数。F\in R^{h\times w\times c}是最后一个网络块的输出。

b、将z=\left [ z^{1} ,...,z^{C}\right ]表示为logits输出,其中C是类别标签。

最终的模型预测是通过具有温度\tau的软最大函数\delta \left ( z^{c} \right )=\frac{\exp \left ( \frac{z^{c}}{\tau } \right )}{\sum_{j}\exp \left ( \frac{z^{j}}{\tau } \right )}获得的。

1.1教师预测的损失函数

       为了有效地聚合多个教师的预测分布,通过计算教师预测和真实标签之间的交叉熵损失,分配反映其样本置信度的不同权重

\iota _{CE_{KD}}^{k}=-\sum_{c=1}^{C}y^{c}\log \left ( \sigma \left ( z_{T_{k}}^{c} \right ) \right )

w_{KD}^{k}=\frac{1}{K-1}\left ( 1-\frac{\exp \left ( \iota _{CE_{KD}}^{k} \right )}{\sum_{j}\exp \left ( \iota _{CE_{KD}}^{j} \right )} \right )

其中T_{k}表示第k个教师。\iota _{CE_{KD}}^{k}越小对应于w_{KD}^{k}越大。

教师的总体预测如下并用计算出的权重进行聚合:

\iota _{KD}=-\sum_{k=1}^{K}w_{KD}^{k}\sum_{c=1}^{C}z_{T_{k}}^{c}\log \left ( \sigma \left ( z_{S}^{c} \right ) \right )

预测更接近真实标签的教师将被分配更大的权重w_{KD}^{k}因为其有足够的信心做出准确判断,以正确指导。相反,如果我们简单地通过计算教师预测的熵来获得权重,则无论最高概率类别是否正确。

1.2中级教师特征的损失

     除KD损失外,受FitNets的启发认为中间层也有利于学习结构知识,因此将方法扩展到中间层以挖掘更多信息。中间特征匹配的计算如下所示:

z_{S}\rightarrow T_{k}=W_{T_{k}}h_{S}

\iota _{CE_{inter}}^{k}=-\sum_{c=1}^{C}y^{c}\log \left ( \sigma \left ( z_{S}^{c}\rightarrow T_{k} \right ) \right )

w_{inter}^{k}=\frac{1}{K-1}\left ( 1-\frac{\exp \left ( \iota _{CE_{inter}}^{k} \right )}{\sum_{j}\exp \left ( \iota _{CE_{inter}}^{j} \right )} \right )

其中W_{T_{k}}是第k个教师的最终分类器。

1、h_{S}\in R^{c}是最后一个学生特征向量,即hS=AvgPooling(F_{S})。

2、\iota _{CE_{inter}}^{k}通过将h_{S}传递给每个教师分类器来获得。

3、w_{inter}^{k}的计算类似于w_{KD}^{k}的计算。

为了稳定知识转移过程,将学生设计为更专注于模仿具有相似特征空间的教师w_{inter}^{k}实际上用作表示教师分类器在学生特征空间中的可辨别性的相似性度量。消融研究表明,利用w_{inter}^{k}而不是w_{KD}^{k}在中间层进行知识聚合更有效。

\iota _{inter}=\sum_{k=1}^{K}w_{inter}^{k}\left \| F_{T_{k}}-r\left ( F_{S} \right ) \right \|_{2}^{2}

1、r(·)是用于对齐学生和教师特征维度的函数

2、\iota _{2}损失函数用作中间特征的距离度量

3、特征对之间的总体训练损失将由w_{inter}^{k}汇总。

1.3总损失函数

除了上述两个损失外,还计算了具有真实标签的规则交叉熵:

\iota _{CE}=-\sum_{c=1}^{C}y^{c}\log \left ( \sigma \left ( z_{S}^{c} \right ) \right )

CA-MKD的总体损失函数总结如下:

\iota =\iota _{CE}+\alpha \iota _{KD}+\beta \iota _{inter}

其中α和β是超参数,用于平衡知识蒸馏和标准交叉熵损失的影响。

2、总结

 1、介绍了多教师知识蒸馏的预测中间特征的置信感知机制

2、教师的置信度是基于他们的预测或特征与每个训练样本的可靠性识别的基本事实标签之间的相似度来计算的。

3、在标签的指导下,我们的技术有效地整合了来自多个教师的不同知识,用于学生培训。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一瞬にして失う

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值