【论文速递】CVPR2022 - 通过目标感知transformer进行知识蒸馏

【论文速递】CVPR2022 - 通过目标感知transformer进行知识蒸馏

【论文原文】:Knowledge Distillation via the Target-aware Transformer

获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9879889

博主关键词: transformer,知识蒸馏,目标感知
推荐相关论文:

-无

摘要:

知识蒸馏成为提高小型神经网络性能的事实标准。以前的大多数作品都提出以一对一的空间匹配方式将表征特征从教师回归到学生。然而,人们往往会忽略这样一个事实,即由于架构差异,同一空间位置的语义信息通常会有所不同。这极大地破坏了一对一蒸馏方法的基本假设。为此,我们提出了一种新的一对多空间匹配知识蒸馏方法。具体来说,我们允许将教师特征的每个像素提炼到学生特征的所有空间位置,因为它的相似性是由目标感知变压器生成的。我们的方法在各种计算机视觉基准测试(如ImageNet,Pascal VOC和COCOStuff10k)上大大超过了最先进的方法。代码可在 https://github.com/sihaoevery/TaT 获得。

关键词 :transformer,知识蒸馏,目标感知。

简介:

知识蒸馏[19],[31]是指提高任何机器学习算法性能的简单技术。一种常见的场景是将知识从较大的教师神经网络提炼到较小的学生神经网络中,这样与单独训练学生模型相比,可以显著提高学生模型的性能。具体来说,人们制定了一个外部损失函数,引导学生的特征图模仿老师的特征图。最近,它已被应用于各种下游应用,例如模型压缩[42],[48],持续学习[25]和半监督学习[8]。

早期的工作只是从神经网络的最后一层提炼出知识,例如,图像分类任务中的“logits”[1],[19]。最近,人们发现提炼中间特征图是提高学生表现的更有效方法。这一系列作品鼓励在空间维度上引出类似的模式[36],[50],并构成最先进的知识蒸馏方法[7],[22]。
在这里插入图片描述

Fig. 1. Illustration of semantic mismatch.

为了计算上述方法的蒸馏损失,需要从教师那里选择源特征图,从学生那里选择目标特征图,其中这两个特征图必须具有相同的空间维度。如图1(b)所示,损失以一对一的空间匹配方式计算,即每个空间位置的源要素和目标要素之间的距离之和。这种方法的一个基本假设是每个像素的空间信息是相同的。在实践中,这种假设通常是无效的,因为学生模型的卷积层通常比教师少。图1(a)显示了一个例子,即使在相同的空间位置,学生特征的感受野通常明显小于教师的感受场,因此包含的语义信息较少。此外,最近的工作[5],[10],[41],[49]证明了感受场对模型表示能力的影响的重要性。 这种差异是当前一对一匹配蒸馏导致次优结果的潜在原因。

为此,我们提出了一种新的一对多空间匹配知识蒸馏方法。在图1(c)中,我们的方法通过参数相关性将教师在每个空间位置的特征提炼成学生特征的所有组成部分,即蒸馏损失是所有学生成分的加权总和。为了模拟这种相关性,我们制定了一个转换器结构,该结构重建了学生特征的相应单个组件,并产生了与目标教师对齐的特征。我们称这种目标感知变压器为目标感知变压器。因此,我们使用参数相关来测量以学生特征和教师特征的表征分量为条件的语义距离,以控制特征聚合的强度,从而解决了一对一匹配知识蒸馏的缺点。

当我们的方法计算特征空间位置之间的相关性时,当特征图很大时,它可能会变得棘手。为此,我们以两步分层的方式扩展我们的管道:1)我们不计算所有空间位置的相关性,而是将特征图分成几组补丁,然后在每组中执行一对多的蒸馏;2)我们进一步将补丁内的特征平均为单个向量以提炼知识。这将我们方法的复杂性降低了几个数量级。

我们评估了我们的方法在两个流行的计算机视觉任务上的有效性,即图像分类和语义分割。在 ImageNet 分类数据集上,ResNet18 学生的准确率可以从 70.04% 提高到 72.41%,比最先进的知识蒸馏高出 1.0%。至于COCOStuff8k上的分割任务,与之前的方法相比,我们的方法能够在平均并集交点(mIoU)方面将紧凑型MobilenetV10架构提高2.1%。

我们的贡献可以总结如下:

  • 我们建议通过目标感知转换器进行知识提炼,使整个学生能够分别模仿教师的每个空间组成部分。通过这种方式,我们可以提高匹配能力,从而提高知识蒸馏性能。

  • 我们提出了分层蒸馏来转移局部特征以及全局依赖关系,而不是原始特征图。这使我们能够将所提出的方法应用于由于特征图尺寸大而承受沉重计算负担的应用程序。

  • 通过应用我们的蒸馏框架,我们在多个计算机视觉任务上实现了与相关替代方案相比的最新性能。

【论文速递 | 精选】

论坛地址:https://bbs.csdn.net/forums/paper
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: CVPR2022是计算机视觉领域的顶级国际会议,而Transformer是一种基于自注意力机制的神经网络模型,已经在自然语言处理领域取得了很大的成功。在计算机视觉领域,Transformer也被广泛应用于图像生成、目标检测、图像分割等任务中。因此,CVPR2022中关于Transformer的研究和应用将会是一个热门话题。 ### 回答2: CVPR2022是计算机视觉领域内的一场重要学术会议,其中涉及到了许多最新的技术和研究成果。其中,Transformer是一个备受关注的话题。 Transformer是一种基于注意力机制的神经网络结构,最初是被提出作为解决自然语言处理任务的一种方法。但是,后来人们发现Transformer同样适用于计算机视觉领域中的各种任务,如目标检测、图像分割、图像生成等。 在CVPR2022中,许多研究人员展示了他们基于Transformer的新方法和改进。其中,一些新方法表现出了很好的性能,证明了Transformer在计算机视觉领域中的应用前景。 另外,还有一些关于Transformer的应用研究值得关注。例如,一些研究人员提出了一种基于Transformer的迁移学习方法,可以将已经训练好的模型应用于新的数据集,从而提高模型的泛化能力。此外,还有一些研究人员探究了Transformer结构在图像内部表示方面的作用,以及如何优化Transformer以提高其计算效率等问题。 总之,Transformer在计算机视觉领域中的应用前景十分广阔,CVPR2022中越来越多的研究人员开始关注并致力于Transformer的发展和应用,相信在不久的将来,Transformer将会在计算机视觉领域中扮演更加重要的角色。 ### 回答3: CVPR是计算机视觉领域的顶级国际学术会议。每年,来自世界各地的研究人员都会在该会议上展示他们的最新研究成果,并分享他们的见解和经验。CVPR2022 TransformerCVPR2022的一个重要话题,它展示了近年来该领域中的最新技术。 Transformer是一种用于自然语言处理(NLP)和计算机视觉(CV)的深度学习模型。该模型在2017年由谷歌公司提出,并在机器翻译任务中获得了巨大的成功。近年来,Transformer已被广泛应用于计算机视觉领域,并在图像分类、目标检测、图像分割、人体姿势估计等任务上取得了优异的结果。 CVPR2022 Transformer展示了一系列最新的技术和应用。首先,该会议涵盖了Transformer模型的各种变体,包括BERT、RoBERTa、GPT和DeiT等。这些变体旨在通过使用更好的语言和图像表示方法来提高模型的性能。其次,该会议还探讨了Transformer在各种计算机视觉任务中的应用,如自然场景文本识别、物体检测和图像生成等。 与传统的卷积神经网络(CNNs)相比,Transformer模型具有许多优势。首先,Transformers可以捕获长期依赖性,因此它们在处理序列数据时更加有效。其次,Transformers具有自注意力机制,这意味着它们能够高效地对重要信息进行集中处理。最后,Transformers可以通过使用预训练模型来提高其性能,这使得它们更适合于小样本或零样本学习。 总之,CVPR2022 Transformer是计算机视觉领域中的一个重要话题,它展示了这一深度学习模型在图像处理中的最新技术和应用。Transformer模型的优越性能使得它成为计算机视觉领域中的一项关键技术,将随着时间的推移变得更加成熟和广泛应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值