CONFIDENCE-AWARE MULTI-TEACHER KNOWLEDGE DISTILLATION自信感知多教师知识蒸馏

摘要

知识蒸馏最初是为了利用单个教师的额外监督来训练学生模型。为了提高学生的表现,最近的一些变体试图利用来自多个教师的不同知识来源。然而,现有的研究方法主要是通过对多个教师预测进行平均或使用其他无标签策略将它们组合在一起来整个不同来源的知识,这可能会在存在低质量教师预测的情况下误导学生。为了解决这个问题,我们提出了自信感知的多教师知识蒸馏(CA-MKD),他在ground truth标签的帮助下自适应为每个教师预测分配样本置信度,那些接近一个热点标签的教师预测分配了较大的权重。此外,CA-MKD在中间层加入了特征,以稳定知识转移过程。

1、介绍

由于大众的智慧超过了最聪明的个人的智慧,一些多教师知识蒸馏(MKD)方法被提出并被证明也是有益的。基本上,他们将多名教师的预测与固定权重分配或其他无标签方案相结合,例如基于优化问题或熵准则计算权重等。然而,固定权重并不能区分高质量教师和低质量教师,其他方案可能会在低质量教师预测存在的情况下误导学生。图1提供了关于这个问题的直观说明。其中,一旦大多数教师的预测有偏差,使用平均加权策略训练的学生可能会偏离正确的方向。

幸运的是,我们实际上有基础ground-truth标签,可以量化我们对教师预测的信息,然后过滤掉低质量的预测,以更好的训练学生。为此,我们提出了自信感知多教师知识蒸馏(CA-MKD),通过考虑教师的预测置信度进行自适应知识整合来学习样本加权。置信度是基于预测分布和ground truth之间的交叉熵损失获得的。与以前的无标签加权策略相比,我们的方法使学生能够从一个相对正确的方向学习。

请注意,我们的信息感知机制不仅能够根据样本置信度自适应地对不同的教师预测进行加权,而且还可以扩展到中间层的学生-教师特征对。在我们生成的灵活有效的权重的帮助下,我们可以避免那些在知识转移过程中占主导地位的糟糕的教师预测,并在8种教师架构组合上显著提高学生的表现。

相关工作

知识蒸馏。Vanilla蒸馏旨在将知识从复杂网络(教师)转移到简单网络(学生),其软化输出之间的KL散度最小化。后来提出模仿中间层的教师表示,以探索更多的知识形式[5,6,14,15,7]。与这些需要对教师进行预训练的方法相比,有些作品同时培训多个学生,并激励他们相互学习。我们的技术不同于这些在线KD方法,因为我们试图从多个预先训练的教师中提取知识。

多教师知识蒸馏。MKD不是使用单一的教师,而是通过整合来自多个教师的预测来提高蒸馏的有效性。提出了一堆方法,如简单地为不同的教师分配平均或其他固定的权重,以及基于熵、潜在因素或梯度空间中的多目标优化来计算权重。然而,这些无标签策略可能会在低质量预测的情况下误导学生训练。例如,基于熵的策略将更倾向于盲目信任的模型,因为它倾向于低方差的预测;基于优化的策略倾向于多数人的意见,容易被噪声数据误导。相比之下,我们的CA-MKD基于ground truth量化了教师的预测,并进一步提高了学生的表现。
在这里插入图片描述

方法

image-20240318185901471作为标记训练集。N是样本数量,K是教师数量。F是最后一个网络块的输出。我们表示image-20240318190042873为logits的输出,其中C为类别数。最终模型预测由一个softmax函数与温度T得到。在下面的部分中,我们将详细介绍CA-MKD。

教师预测的损失

为了有效地整合多个教师的预测分布,我们通过计算教师预测和ground truth之间的交叉熵损失来分配不同的权重,这反映了他们的样本置信度。

image-20240318190634804

image-20240318190715342表示第k个教师。image-20240318190748032越小,对应的image-20240318190755082就越大。教师的总体预测是汇总计算出的权重:

image-20240318191531139

根据上述公式,预测更接近ground truth标签的教师将被赋予更大的权重image-20240318191702703,因为它有足够的信息做出准确的判断,从而进行正确的指导。

中级教师特征的缺失

除了KD Loss外,受FitNet的启发,我们任务中间层也有利于学习结构知识,因此将我们的方法扩展到中间层以挖掘更多的信息。中间特征匹配的计算方法如下:

image-20240318192623047

其中image-20240320135113505是第k位教师的最终分类器,image-20240318192749003是最后一个学生特征向量,即image-20240320135136920image-20240320135240795是通过hs传递到每个教师分类器得到的。image-20240320135311308的计算方法和image-20240320135317796的计算方法相似。

为了确定知识转移过程,我们将学生设计成更专注于模仿具有相似特征空间的教师,image-20240320135513761确实可以作为一个相似度量,表示师生分类器在学生特征空间中的可判别性。

消融实验也表明,在中间层,使用image-20240320135631360而不是image-20240320135642762进行知识聚合更为有效。

L i n t e r = ∑ k = 1 K w i n t e r k ∣ ∣ F T k − r ( F S ) ∣ ∣ 2 2 L_inter = \sum_{k=1}^K w_{inter} ^k ||F_{T_k} - r(F_S)||_2 ^2 Linter=k=1Kwinterk∣∣FTkr(FS)22
image-20240320135838714是对齐学生和教师特征维度的函数,l2损失函数作为中间特征的距离度量。最后,将特征对之间的总体训练按image-20240320135938015间隔进行汇总。

总损失

除了上述的两个损失,还计算了具有ground trutj的正则交叉熵损失
L C E = − ∑ c = 1 C y c l o g ( σ ( Z S c ) ) L_{CE} = -\sum_{c=1}^C y^c log(\sigma (Z_S ^c)) LCE=c=1Cyclog(σ(ZSc))
CA-MKD的总损失:
L = L C E + α L K D + β L i n t e r L = L_{CE} + \alpha L_{KD} + \beta L_{inter} L=LCE+αLKD+βLinter

  • 19
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
"Depth Confidence-aware Camouflaged Object Detection" 是一篇关于深度置信感知伪装目标检测的论文。该论文介绍了一种用于检测伪装目标的新方法,该方法结合了深度信息和置信度感知。 伪装目标指的是那些在外观上与周围环境相似,很难被人眼或传统算法准确识别的目标。传统的目标检测方法在处理伪装目标时往往存在困难,因为伪装目标与背景具有相似的颜色、纹理或形状,导致目标难以被区分。 该论文中提出的方法通过结合深度信息和置信度感知来解决伪装目标检测的问题。具体而言,该方法首先利用深度传感器(如RGB-D相机)获取场景的深度信息,将其与RGB图像进行融合。然后,使用深度信息来提取特征,并通过深度感知模块来增强目标的边缘和轮廓特征。 此外,该方法还引入了置信度感知模块,用于评估每个像素点的置信度。置信度可以根据像素点的深度、颜色、纹理等信息计算得出。通过增强高置信度区域的特征表示,可以提高对伪装目标的检测能力。 最后,该方法使用深度置信感知的特征表示进行目标检测和分割。实验结果表明,该方法在多个公开数据集上取得了较好的性能,并且在伪装目标检测任务上相比其他方法具有明显的优势。 综上所述,"Depth Confidence-aware Camouflaged Object Detection" 这篇论文提出了一种利用深度信息和置信度感知来检测伪装目标的新方法。通过结合深度和置信度信息,该方法能够提高对伪装目标的检测准确性和鲁棒性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值