Open Set Recognition using Vision Transformer with an Additional Detection Head
使用带有附加检测头的视觉Transformer 进行开放集识别
摘要
深度神经网络在封闭集设置中的图像分类任务中表现出突出的能力,其中测试数据来自与训练数据相同的分布。然而,在一个更现实的开放集场景中,具有不完整知识的传统分类器无法处理不属于训练类的测试数据。开放集识别(OSR)旨在通过同时识别未知类和区分已知类来解决这个问题。在本文中,我们提出了一种基于视觉变换器(ViT)技术的新型OSR方法。具体来说,我们的方法采用了两个独立的训练阶段。
- 首先,一个ViT模型被训练来进行封闭集分类。
- 然后,一个额外的检测头被附加到由ViT提取的嵌入式特征上,经过训练的检测头可以将已知数据的表征紧凑地强制到特定的类群中。
测试实例根据其与聚类中心的距离被识别为已知或未知。据我们所知,这是第一次将ViT用于OSR的目的,我们对几个OSR基准数据集的广泛评估显示,我们的方法明显优于其他基线方法,并获得了新的先进性能。我们的代码和训练有素的模型可在以下网站公开获取https://github.com/feiyang-cai/osr_vit.git
引言
在过去的几年里,深度学习技术的快速发展使其在广泛的应用领域取得了显著的成功。深度学习建立在一个基本假设之上,即训练和测试数据来自相同的分布。然而,在现实的应用中,训练数据集中的已知类并不完整,在测试过程中可能包括未知类。这些出现在测试数据中的未知类别超出了封闭集分类器的知识范围,可能会被错误地识别为已知类别之一。开放集识别(OSR)[23]旨在建立一个值得信赖的识别系统,它不仅能够对已知的类进行准确的分类,而且能够识别和拒绝一个尚未遇到的例子。
自从OSR问题最初由[23]定义以来,已经进行了广泛的调查[20, 25, 35, 3, 30, 28, 16],在过去的几年中,提出的方法已经逐渐从传统的机器学习过渡到基于深度学习的方法。尽管这些基于深度学习的方法在标准的OSR基准数据集上获得了明显的改善,但近年来,这种改善已经放缓,如图1所示。典型的方法是基于卷积神经网络(CNN)的骨架,如VGG-16[24]和ResNet-50[7]。利用更多最新的CNN架构可能有助于改善OSR结果,但通过引入新的骨干网来打破这一性能瓶颈可能更有帮助。
最近,文献[5]中提出了一个使用变换器编码器[27]的视觉变换器(ViT)模型。 基于作为变换器编码器核心的自我注意机制,ViT可以通过利用整个图像的全局信息完成分类任务。研究结果表明,ViT超越了最先进的CNN,并在一些计算机视觉应用的基准中取得了极具竞争力的性能,包括图像分类[5, 26]、物体检测[2, 14]、语义图像分割[8, 13]和
本文提出了一种基于视觉Transformer(ViT)的开放集识别方法,通过附加检测头增强模型识别未知类的能力。首先,使用ViT进行封闭集分类训练,然后附加检测头进行开放集训练,使特征更加紧凑并靠近类群中心。在多个OSR基准数据集上,该方法表现出优越性能,优于现有基线。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



