Channel-wise Knowledge Distillation for Dense Prediction

本文提出了一种新的知识蒸馏策略,通过关注每个通道的显著区域,而非逐点对齐,优化了密集预测任务,如语义分割和目标检测。通道蒸馏通过最小化教师和学生网络通道概率图的KL散度,使得学生网络能更精确地学习关键区域,提升性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

结论

这是一篇2021年的文章,与以往用于密集预测任务的KD方法不同之处在于:通过对学生和教师网络的通道概率图之间的KL散度,使学生网络更加关注每个通道的最显著区域

摘要

知识蒸馏已被证明是训练密集目标检测模型的一种简单而有效的工具。轻量级的学生网络通过从大型教师网络转移来的额外监督进行训练。用于密集检测任务的大多数先前KD变体在空间域上对齐来自学生和教师网络的激活图,通常通过对每个空间位置上的激活值进行归一化并最小化逐点和/或逐对差异。与以前的方法不同,这里我们建议对每个通道的激活图进行归一化,以获得soft 概率图。通过简单地最小化两个网络的通道概率图之间的KL散度 ,蒸馏过程更加关注每个通道的最显著区域,这对密集检测任务很有价值。

介绍

密集预测任务是计算机视觉中的一组基本任务,包括语义分割和目标检测。这些任务需要学习强大的特征表示,以便在像素级别上理解复杂的场景。因此,最先进的模型通常需要高计算成本,这使得它们难以部署到移动设备上。因此,为密集预测任务设计的紧凑网络引起人们的广泛关注。此外,在以前的工作中已经研究了使用知识蒸馏(KD)来有效地训练轻量级网络。小型网络在大型教师网络的监督下进行培训,可以获得更好的性能。提出并研究了开创性的工作,主要用于图像分类任务。

密集预测任务是每像素的预测问题,比图像分类更具挑战性。先前的研究发现,将分类中的KD方法直接转移到语义分割可能不会产生令人满意的结果。严格对齐教师和学生网络之间的逐点分类分数或特征图可能会强制执行过于严格的约束,并导致次优解。然后,通过聚合不同空间位置的子集来进行一些特定于任务的关系,例如成对关系和类间关系。这种方法在捕捉空间结构信息方面可能比逐点对齐更好,并提高学生网络的性能。然而,激活图中的每个空间位置对知识转移的贡献都是相等的,这可能会从教师网络中带来冗余信息。

在这项工作中,我们提出了一种新的通道知识提取方法,通过对密集预测任务的每个通道中的激活图进行归一化,如图2(b)所示。

然后,我们最小化教师和学生网络之间归一化通道激活图的非对称KL散度该散度被转换为每个通道的分布。我们在图2(c)中展示了一个按通道分布的示例。每个通道的激活倾向于对场景类别的显著性进行编码

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值