这篇文章是一篇关于视觉语言模型(VLM)时代广义分布外(OOD)检测及其扩展的综述。文章主要内容包括:
-
背景与动机:
-
可靠的视觉识别系统不仅需要准确预测已知上下文,还需要识别并拒绝未知示例。
-
现有的机器学习模型通常基于封闭世界假设,无法有效处理分布外(OOD)样本。
-
视觉语言模型(如CLIP)的出现改变了识别领域的范式,影响了OOD检测及相关任务。
-
-
广义OOD检测框架:
-
提出了广义OOD检测v2框架,总结了VLM时代五个相关领域(异常检测、新颖性检测、开放集识别、OOD检测和离群检测)的演变。
-
揭示了VLM时代的主要挑战是OOD检测和异常检测。
-
-
方法与技术:
-
详细介绍了基于CLIP的OOD检测和异常检测的方法,包括零样本和小样本设置。
-
讨论了无训练方法、辅助训练方法和ID训练方法。
-
介绍了全谱OOD检测和开放词汇OOD检测等新兴研究方向。
-
-
大视觉语言模型(LVLM)时代的进展:
-
介绍了LVLM时代OOD检测和异常检测的早期进展。
-
提出了不可解问题检测(UPD)这一新任务,评估LVLMs在面对不可解问题时拒绝回答的能力。
-
-
潜在挑战与未来方向:
-
讨论了开放词汇OOD检测、全谱OOD检测和硬全谱OOD检测等潜在挑战。
-
提出了利用大型预训练模型、真实世界基准和评估、以及探索UPD有效解决方案等未来研究方向。
-
-
结论:
-
总结了VLM和LVLM时代OOD检测和相关任务的演变,强调了未来研究的重要方向和合作努力。
-
通过这篇综述,作者希望为研究人员提供一个全面的视角,帮助他们理解VLM和LVLM时代OOD检测领域的最新进展和未来挑战。这里是自己的论文阅读记录,感兴趣的话可以参考一下,如果需要阅读原文的话可以看这里,如下所示:
摘要
检测分布外(OOD)样本对于确保机器学习系统的安全性至关重要,并塑造了OOD检测领域。与此同时,其他几个问题与OOD检测密切相关,包括异常检测(AD)、新颖性检测(ND)、开放集识别(OSR)和离群检测(OD)。为了统一这些问题,提出了一个广义OOD检测框架,对这五个问题进行了分类。然而,视觉语言模型(VLMs)如CLIP的出现显著改变了范式,模糊了这些领域之间的界限,再次让研究人员感到困惑。在这篇综述中,我们首先提出了广义OOD检测v2,概括了VLM时代AD、ND、OSR、OOD检测和OD的演变。我们的框架揭示了,随着某些领域的停滞和整合,VLM时代的挑战性问题已成为OOD检测和AD。此外,我们还强调了定义、问题设置和基准的显著变化;因此,我们全面回顾了OOD检测的方法,包括对其他相关任务的讨论,以澄清它们与OOD检测的关系。最后,我们探讨了新兴的大视觉语言模型(LVLM)时代的进展,如GPT-4V。我们以开放挑战和未来方向作为这篇综述的结论。
关键词: 异常检测,新颖性检测,开放集识别,分布外检测,离群检测,视觉语言模型,CLIP,大视觉语言模型,大多模态模型
1 引言
一个可靠的视觉识别系统不仅应准确预测已知上下文,还应识别并拒绝未知示例[1, 2, 3, 4]。在自动驾驶等关键应用中,系统在遇到训练中未见过的场景或物体时必须发出警报并将控制权交还给驾驶员。然而,大多数现有的机器学习模型基于封闭世界假设[5, 6],其中测试数据被假设为从与训练数据相同的分布中独立同分布(i.i.d.)抽取,称为分布内(ID)。因此,开发能够检测分布外(OOD)样本的分类器是实际应用中的一个关键挑战。这一挑战正是OOD检测领域研究的重点。
虽然OOD检测主要关注语义分布偏移,但其他几个任务具有相似的目标和动机,包括离群检测(OD)[7, 8, 9, 10]、异常检测(AD)[11, 12, 13, 14]、新颖性检测(ND)[15, 16, 17, 18]和开放集识别(OSR)[19, 20, 21]。这些子主题之间的具体定义差异导致了领域的混淆,导致在它们之间提出了类似的解决方案。为了解决这个问题,引入了广义OOD检测框架[22]。广义OOD检测框架的分类如图1所示。广义OOD检测框架将这些任务分类为统一分类法下的特殊情况或子任务。该框架提供了清晰的定义,并促进了每个领域的深入理解。
近年来,以CLIP[23]为代表的视觉语言模型(VLMs)的出现迅速加速了计算机视觉领域的研究。这改变了识别领域的范式,使得在各种领域中实现零样本[23]或小样本学习[24, 25]成为可能。VLMs显著影响了上述五个问题(OD、AD、ND、OSR和OOD检测),VLMs的应用已成为一个备受关注的研究领域[26, 27, 28, 29]。然而,随着VLMs的出现带来的范式转变,五个问题之间的界限变得模糊。由于难以清晰理解这些任务之间的区别和相互关系,每个领域的社区在确定VLM时代追求的最佳方向上面临着重大挑战。
在这篇综述中,我们引入了一个新的统一框架,称为广义OOD检测v2,它扩展了之前的广义OOD检测框架,并总结了VLM时代这五个问题的演变。为了创建它,我们系统地回顾了VLMs在这五个问题领域的应用,从开始到现在的演变轨迹,并总结了每个问题的演变轨迹。重要的是,我们的框架揭示了范式转变导致了一些领域的停滞或与其他领域的整合,VLM时代的挑战性问题成为AD和OOD检测,这对每个社区来说是一个显著的发现。除了领域间的演变,我们还详细阐述了OOD检测定义以及问题设置和基准的重要变化,与相关任务进行了对比。然后,我们对VLM时代的OOD检测和相关任务的方法进行了全面回顾,旨在澄清它们的相似性和差异性,并激发未来在OOD检测方面的研究。
最后,我们介绍了这些问题在新兴的大视觉语言模型(LVLM)时代的演变,如GPT-4V[30]或LLaVA[31](也称为大多模态模型或多模态大语言模型[32])。我们总结了每个演变问题的定义、迄今为止的发现和未来的挑战。
总之,在这篇综述论文中,我们对研究社区做出了三个贡献:
-
VLM时代的统一框架:我们系统地回顾了VLM时代五个密切相关主题的演变,包括OD、AD、ND、OSR和OOD检测,并提供了一个更新的统一框架,称为广义OOD检测v2。我们的框架揭示了范式转变导致了一些领域的停滞或整合,挑战性问题成为AD和OOD检测。我们希望这些观察结果能够突出VLM时代的挑战性问题,并促进每个社区之间的合作努力。
-
VLM时代OOD检测的全面综述:尽管近年来已经发表了关于OD、AD、ND、OSR和OOD检测方法的综合综述[11, 12, 13, 14, 20, 52, 51],但这是首次专门在VLM时代全面概述OOD检测方法的综述。通过与其他相关任务的联系,我们旨在为读者提供每个问题发展的整体理解,特别是在OOD检测的背景下。
-
LVLM时代演变的介绍:我们进一步介绍了每个问题在大视觉语言模型时代的演变。尽管这些领域仍处于婴儿阶段,但本综述提供了对每个问题的深入介绍,旨在促进该领域的未来进展。
-
未来研究方向:我们引导读者关注在VLM和LVLM时代推进该领域所需的未来工作。我们以对开放挑战和未来研究机会的讨论作为这篇综述的结论。
论文内容组织如下。在第2节中,我们通过总结VLM时代五个相关领域的演变,介绍了广义OOD检测的新版本。然后,我们在第3节中概述了两个关键问题(OOD检测和AD)的演变,并在第4节(基于CLIP的OOD检测)和第5节(基于CLIP的AD)中详细介绍了现有方法。在第6节中,我们介绍了LVLM时代OOD检测和AD的早期进展。第7节和第8节讨论了潜在挑战和未来方向。最后,我们在第9节中总结。
2 广义OOD检测V2
在本节中,我们介绍了一个新的统一框架,称为广义OOD检测v2,总结了VLM时代五个相关领域的演变。我们首先在第2.1节中回顾了之前的广义OOD检测框架。接下来,我们介绍了每个问题的演变。
2.1 背景:广义OOD检测V1
我们首先简要回顾之前的广义OOD检测,它包含了五个相关的子主题:异常检测(AD)、新颖性检测(ND)、开放集识别(OSR)、分布外(OOD)检测和离群检测(OD)。这些子主题在定义上相似,因为它们都定义了某种分布内(ID),并共同目标是检测开放世界假设下的分布外样本。之前,子主题之间在ID和OOD数据的具体定义和属性上存在细微差异。
为了提供清晰的定义,提出了一个广义OOD检测框架[22]。广义OOD检测的分类如图1所示。它基于以下四个基础:(1)检测的分布偏移:任务侧重于检测协变量偏移(例如,来自不同域的OOD样本)或语义偏移(例如,来自不同语义的OOD样本)。(2)ID数据类型:分布内(ID)数据包含单个类别或多类别。(3)任务是否需要ID分类:一些任务需要ID数据的分类,而其他任务则不需要。(4)直推学习与归纳学习:直推任务需要所有观察(ID和OOD),而归纳任务遵循常见的训练-测试方案。根据上述分类法,这五个问题可以清晰地分类,如图1所示:异常检测分为感官异常检测,处理协变量偏移,和语义异常检测,处理语义偏移。新颖性检测与语义异常检测属于同一类别。当处理多类别场景并需要ID分类时,开放集识别和分布外检测都包含在此类别中。OSR和OOD检测的主要区别在于基准设置[55, 22](第2.2节(c))。离群检测属于与
其他任务不同的类别,因为这个问题是直推的(即,它可以访问所有观察)。
有关每个任务的详细定义,请参阅之前的广义OOD检测综述论文[22]。
2.2 VLM时代每个问题的演变
我们回顾了每个问题在VLM时代的演变。为了做出公平的判断,我们全面调查了使用VLMs的顶级会议论文,并在表I中总结了它们。我们的调查发现,CLIP[23]主要用作OOD检测和其他子任务的VLM,其他VLMs[57, 56]很少被使用。因此,我们在本综述中重点关注CLIP作为目标VLM,并将使用CLIP进行OOD检测称为基于CLIP的OOD检测。类似地,我们将在其他任务前加上“基于CLIP的”(例如,基于CLIP的AD)。由于OOD检测研究主要集中在图像领域,我们对其他常见于OOD检测研究的图像领域任务进行了调查。例如,由于与OOD检测的联系有限,我们的调查不包括视频领域任务[58, 59, 60]。
(a) 感官AD → 基于CLIP的AD 感官AD继续作为基于CLIP的AD的常见问题设置发展,继承了传统感官AD的挑战[27, 29, 33, 65, 61, 62, 63, 64, 63]。如表I所示,首次在顶级会议上的出现是在CVPR 2023,此后在顶级会议上发表了六篇论文。此外,还有许多其他论文[61, 63, 64, 65, 66]。此外,在基准方面,除了常用的MVTec-AD[52],最大的工业异常检测数据集VisA[53]也已成为该领域的标准基准。因此,很明显,感官AD在VLM时代已成为一个高度活跃和值得关注的领域。
(b) 语义AD/ND → 不活跃 语义AD/ND的研究在VLM时代似乎变得不活跃。如表I所示,只有两篇论文,TMLR 2022[37]和CVPR 2024[35]。然而,CVPR 2024的工作[35]旨在构建一个解决许多AD任务的通用异常检测器,包括感官AD和语义AD,并不是主要关注语义AD。不活跃的原因包括单类别语义AD/ND的性能饱和,以及多类别语义AD/ND的方法与CLIP的不兼容性。对于单类别语义AD/ND,存在TMLR[37],但使用常见的CIFAR和ImageNet-30数据集的性能已经达到约99%。对于多类别语义AD/ND,常见的方法是将ID类别视为单个类别,但将ID类别视为单个类别与CLIP的类别判别能力不太兼容。
(c) OSR → 基于CLIP的OOD检测 我们认为OSR已整合到基于CLIP的硬OOD检测中。根据表I,在VLM时代没有顶级会议出版物关于OSR研究。最初,OSR和OOD检测的主要区别在于基准设置[55, 22]。OSR通常将一个数据集中的类别分为一些已知(ID)类别和未知(OOD)类别,如MNIST-4/6[67]、CIFAR-4/6[68]、CIFAR-50/50[69]和TinyImageNet-20/180[70]。然而,近年来,一些基于CLIP的OOD检测工作采用了OSR的基准设置,并创建了新的基准,如ImageNet-10/ImageNet-20[26]和ImageNet-protocol[47, 54]用于硬OOD检测。因此,OOD检测和OSR之间的界限已经消失,所有研究在VLM时代已整合到OOD检测中。
然而,尽管纯OSR研究正在减少,一些研究在领域泛化的背景下使用了“开放集”一词[71]。这些研究偏离了OSR研究的原始范围,更接近领域泛化领域[72]。因此,在我们的广义OOD检测v2中,我们不将这些研究分类为OSR研究。我们将在第7.2节中讨论它们,在全谱OOD检测的背景下,这是一个结合泛化和检测的研究领域。
(d) OOD检测 → 基于CLIP的OOD检测 OOD检测在VLM时代是一个高度活跃的研究领域。如表I所示,有许多顶级会议论文,表明社区对此有很高的兴趣。此外,如上所述,OSR已作为一个硬OOD检测领域整合到OOD检测中[46, 47]。因此,预计OOD检测将继续增长和发展。
(e) OD → 不活跃 OD在VLM时代变得不活跃。之前,OD用于开放集半监督学习[73, 74, 75]、带有开放集噪声标签的学习[76]和新颖性发现[77, 78, 79, 80, 81]。不活跃的原因是使用CLIP减少了训练成本,只需要收集少量数据,消除了对大量未标记数据的需求,并减少了对考虑噪声数据的需求。然而,最近,Liang等人[49]提出了无监督通用微调,这是ICML2024中基于CLIP的OD的一个新问题设置。无监督通用微调假设了一个更现实的问题设置,即在使用CLIP进行下游任务的无监督微调中,一些OOD样本包含在未标记样本中。随着这个新问题设置的出现,OD在未来仍有可能变得活跃。然而,由于OD目前不是一个活跃的领域,我们不将其作为本综述的主要讨论内容。无监督通用微调与OOD检测密切相关,将在第4.3节中详细讨论。
2.3 讨论
通过第2.2节,我们发现之前混合的领域在VLM时代已被正确组织,重点应放在OOD检测和感官AD上。这些领域仍在发展,方法和基准的数量不断增加,预计未来将变得更加活跃。请注意,这并不意味着其他领域已经结束。例如,单类别语义AD/ND未被研究的一个原因是性能饱和[37]。如果能够构建更细粒度和更具挑战性的数据集,该领域可能会重新活跃。我们将此排除在本综述论文的范围之外,但这是一个重要的未来挑战。
3 VLM时代每个问题的概述
除了上述领域间的演变,我们强调VLMs的出现显著改变了OOD检测领域本身。在本节中,我们概述了基于CLIP的OOD检测,突出了问题定义、问题设置和基准的关键变化。此外,我们还概述了基于CLIP的AD,希望对每个领域的理解将加深对基于CLIP的OOD检测的理解。对于背景、应用和评估等未发生变化的项目,我们请读者参阅之前的广义OOD检测论文[22]。
3.1 基于CLIP的分布外检测
定义 基于CLIP的OOD检测的定义与传统的OOD检测有显著不同。传统的OOD检测旨在检测从与训练分布不同的分布中抽取的测试样本。另一种定义是,OOD检测是一项任务,用于检测模型无法或不希望泛化的测试样本[22]。然而,对于基于CLIP的OOD检测,CLIP拥有大量知识,因此OOD样本与CLIP预训练数据的分布或CLIP自身的泛化能力完全无关。因此,传统的定义无法充分描述基于CLIP的OOD检测的定义。
与之前的定义不同,基于CLIP的OOD检测定义如下[26, 39]:基于CLIP的OOD检测旨在检测不属于用户提供的任何ID类别文本的样本。给定一个预训练模型,定义了一个感兴趣的分类任务,由一组类别标签定义,我们称之为ID类别。语义分布由分布
表示。基于CLIP的OOD检测旨在检测来自与ID类别语义偏移的分布的测试样本,即
。根据广义OOD检测框架的定义[22],理想的OOD检测器应在ID类别空间
上的测试样本上保持分类性能,并拒绝语义超出
支持范围的OOD测试样本。
问题设置 基于CLIP的OOD检测侧重于以计算高效的方式解决图像分类任务。与传统的OOD检测设置主要涉及使用整个ID数据训练ID分类器不同,基于CLIP的OOD检测主要侧重于零样本[26](即不使用ID图像)或小样本[28](即仅使用少量ID图像)设置。每种设置的详细定义将在后面的第4节中描述。该领域正在朝着更高的计算效率发展,要求最少或无需训练数据。
基准 大多数最近的基于CLIP的OOD检测工作使用高分辨率和大规模数据集,如ImageNet[26, 48, 47, 46, 28]。常见的ImageNet OOD基准使用ImageNet作为ID,其他数据集[82, 83, 84, 85]作为OOD。然而,在这个常见基准中,ID和OOD之间的语义差异很大,这可能使得ID和OOD之间的区分变得容易。因此,最近的工作使用更具挑战性的OOD基准,将ImageNet类别分为ID和OOD类别,用于硬OOD检测[26, 47, 86]。代表性的数据集是ImageNet-20[26]、ImageNet-10[26]和最近提出的ImageNet-protocol[54],通过将ImageNet-1K划分为多个ID/OOD对来创建。这种创建策略最初侧重于OSR,但最近被重新用于OOD检测。这些数据集的变化使OOD检测更接近现实世界,并使其成为一个更具挑战性和实用性的任务。
3.2 基于CLIP的异常检测
定义 与OOD检测不同,异常检测(AD)的定义在传统AD和基于CLIP的AD之间没有变化。AD旨在用于特定情况(工业检查),其中偏离预定义正常性的样本被视为异常[11, 22]。模型是否能够泛化与“异常”的定义无关。因此,即使出现了CLIP,定义也没有改变。
问题设置 基于CLIP的AD侧重于以计算高效的方式解决异常分类和分割。异常分类,像传统AD一样,是一个区分正常和异常的二分类任务。异常分割,也遵循传统AD,涉及分割异常的位置。与基于CLIP的OOD检测类似,基于CLIP的AD也主要侧重于零样本[27](即不使用目标数据集中的图像)或小样本[27](即仅使用目标数据集中的一些正常图像)设置。每种设置的详细定义将在后面的第5节中描述。作为另一个转变,传统AD为每个类别创建单独的模型[87, 88, 89, 90, 91, 92, 93],而基于CLIP的AD为多个类别创建一个统一的模型[27, 29, 35, 61, 63],从而实现更计算高效的方法。
基于CLIP的OOD检测和基于CLIP的AD之间的一个关键区别是,基于CLIP的OOD检测不涉及定位任务,而这是基于CLIP的AD的主流任务。这将在第5.4节中详细讨论。
基准 大多数基于CLIP的AD工作解决工业检查[52, 94, 95]。至于基准,除了常用的MVTec-AD数据集[52],更具挑战性的数据集VisA[53]已被新采用[27]。VisA基准包括具有复杂结构的对象,如印刷电路板和在单个视图中具有不同位置的多个实例,使其成为目前开放数据集中最具挑战性的数据集之一。由于开创性的基于CLIP的AD工作(即WinCLIP[27])使用了MVTec-AD和VisA,许多后续工作也使用了这些数据集[63, 33, 65]。
4 基于CLIP的OOD检测:方法
在本节中,我们介绍了基于CLIP的分布外(OOD)检测的方法。图3展示了基于CLIP的OOD检测的代表性方法的时间线。表II列出了代表性方法。我们在第4.1节中介绍了零样本OOD检测的方法,在第4.2节中介绍了小样本OOD检测的方法,在第4.3节中介绍了其他研究方向。对于每种方法,我们根据训练类型和是否使用了额外的OOD提示进行分类。
4.1 零样本分布外检测
零样本OOD检测由Fort等人[38]在2021年提出。此后,越来越多的方法逐年提出。
零样本OOD检测的定义 在零样本OOD检测中,“零样本”指的是在训练和推理阶段不使用ID图像。例如,使用辅助数据集进行额外训练(不使用ID图像)的方法可以被视为零样本方法[40]。对ID类别文本进行预处理的方法也可以被视为零样本方法[45, 44, 38, 49, 45]。
4.1.1 无训练方法
a. 使用OOD提示 基于CLIP的OOD检测从这种设置开始。最早的工作是ZeroOE[38]。ZeroOE将潜在的OOD标签输入CLIP的文本编码器。然而,使用已知的OOD标签的方法在实际应用中是不可行的。为了解决这个问题,ZOC[39]提出基于CLIP的视觉编码器训练一个OOD标签生成器,并使用生成的伪OOD标签进行OOD检测。然而,当处理包含大量ID类别的大规模数据集时,标签生成器可能无法生成有效的候选OOD标签,导致性能不佳。在这些早期工作[38, 39]的基础上,最近的工作专注于如何通过(i)OOD标签检索[45, 100]或(ii)OOD标签生成[48]获得高质量的OOD标签。(i)代表性的检索方法之一是NegLabel[45]。NegLabel通过计算提取的OOD标签与ID标签之间的距离,从广泛的语料库数据库中选择高质量的OOD标签。(ii)代表性的生成方法之一是EOE[48]。EOE利用大语言模型(LLMs)生成高质量的OOD标签。通过修改提供给LLM的提示,EOE可以推广到各种任务,包括远OOD和近OOD检测。
b. 不使用OOD提示 在零样本OOD检测中,许多方法使用OOD标签,但创建这些标签的难度和成本是一个挑战。为了解决这些问题,Ming等人[26]提出了MCM,它仅使用ID标签来检测OOD。MCM是一种简单的方法,设计了softmax缩放以使视觉特征与文本概念对齐进行OOD检测。尽管简单,MCM具有高有效性和可扩展性,并在基于CLIP的OOD检测中作为一个关键基线。在MCM的概念基础上,Miyai等人[96]提出了GL-MCM,通过添加局部MCM分数来增强局部区域的细粒度检测能力。SeTAR[97]通过使用简单的贪心搜索算法改变模型的权重矩阵,增强了MCM和GL-MCM。我们认为这些方法是基于CLIP的OOD检测的后处理方法,因为它们直接使用ID分类器进行OOD检测。由于它们的简单性和高可扩展性,这些后处理方法可以为许多后续方法[44, 28, 47]带来基本的性能提升。因此,我们期望这个领域应该在未来进一步发展,反映出在CLIP出现之前领域的轨迹[101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111]。
4.1.2 辅助训练方法
CLIPN[40]是唯一的辅助训练零样本OOD检测方法。CLIPN旨在在CLIP中赋予“说不”的逻辑,并设计了一个新颖的可学习的“不”提示和一个额外的“不”文本编码器,以捕捉图像中的否定语义。为了创建额外的文本编码器,CLIPN需要在CC-3M数据集[112]上进行预训练。尽管CLIPN的广泛预训练可能会导致密集计算和较低的可扩展性,但一旦预训练完成,它可以在广泛的领域中进行零样本OOD检测,性能与小样本OOD检测方法相当[44, 28]。在未来,在这个领域内,零样本开放词汇OOD检测有可能进一步推进零样本OOD检测的领域,这将在后面的第7.2节中讨论。
4.2 小样本分布外检测
小样本OOD检测由Miyai等人[28]和Ming等人[41]在2023年6月同时提出。此后,它成为基于CLIP的OOD检测中最活跃的研究领域。
小样本OOD检测的定义 基于CLIP的小样本OOD检测旨在仅使用少量标记的ID图像检测OOD图像。在小样本OOD检测中,“小样本”指的是在训练或推理阶段使用少量ID图像。例如,使用少量ID图像进行额外训练的方法可以被视为小样本方法[33]。即使没有训练,如果一种方法使用少量ID图像作为参考,我们也将其视为小样本方法[27]。关于样本数量,通常在1-shot到16-shot之间进行实验[89, 28],遵循闭集设置[24]。
4.2.1 ID训练方法
a. 不使用OOD提示 小样本OOD检测从这种设置开始。Ming等人[41]提出了PEFT-MCM,用于基于CLIP的OOD检测,展示了结合参数高效调优方法(例如,提示学习[24]或适配器[113])和MCM[26]的有效性。同时,Miyai等人[28]提出了LoCoOp,这是小样本OOD检测的先驱提示学习方法。LoCoOp通过使用局部OOD特征进行OOD正则化,增强了CoOp的[24]OOD检测能力。LoCoOp是最简单的提示学习方法,并在小样本OOD检测中作为一个关键基线。与LoCoOp使用非ID局部区域进行OOD正则化不同,GalLoP[98]提出了一种使用局部ID区域的方法,以实现ID和OOD样本的更细粒度区分。GalLoP通过利用全局和局部视觉表示学习多样化的提示集,从而增强了检测能力。
b. 使用OOD提示 与零样本OOD检测类似,最近的小样本OOD检测工作使用额外的OOD提示[46, 47, 44]。作为代表性方法,LSN[44]和NegPrompt[47]同时提出。他们指出,添加的简单负提示(例如,“不是一张[cls]的照片”)无法捕捉识别OOD样本的差异性。因此,通过准备负提示并使用它们进行训练,LSN和NegPrompt可以学习合适的负提示,从而更准确地检测OOD样本。LSN和NegPrompt在使用负提示的方法上有所不同。LSN为每个类别准备独特的负提示,并学习每个类别的合适负提示。相比之下,NegPrompt为所有ID类别准备多个负提示,并训练它们学习任何给定类别标签的负语义的通用模板。此外,NegPrompt在ImageNet-protocol[54]的硬OOD检测设置中测试了性能,超过了LoCoOp和CoOp。或者,IDPrompt[46]通过引入ID类提示,这些提示设计用于接近ID特征的OOD特征。它从ID训练图像中提取ID类OOD区域,并使用这些提取的OOD数据训练ID类提示。在一个独特的方向上,LAPT[114]提出了一种自动样本收集策略,仅使用ID类别名称检索或生成训练ID图像,从而在不收集和注释图像成本的情况下实现高性能。LAPT然后进行分布感知提示学习,区分ID类别和OOD类别令牌。LAPT在本综述论文中被定位为更高效的小样本OOD检测,因为它需要生成或检索“ID图像”进行数据收集。
4.2.2 无训练方法
无训练小样本OOD检测是一个新兴的研究领域,只有Dual-Adapter[99]属于这一类别。Dual-Adapter采用了一种基于先验的方法Tip-Adapter[113],利用文本和视觉特征与缓存模型相结合,并在不训练的情况下增强性能。为了将其适应小样本OOD检测,Dual-Adapter采用了双缓存建模的概念,构建了Positive-Adapter和Negative-Adapter,并通过两种适配器的预测差异识别OOD样本。
4.3 其他重要研究方向
4.3.1 基于CLIP的全谱OOD检测
基于CLIP的全谱OOD(FS-OOD)检测是一个关键挑战[115]。FS-OOD检测由Yang等人[116]在2022年提出,作为一个重要的设置,考虑了OOD泛化[117, 118]和OOD检测。与仅关注训练和测试分布之间语义偏移的标准OOD检测不同,FS-OOD检测进一步考虑了非语义协变量偏移,包括协变量偏移的ID图像。至于基准,OpenOOD v1.5[119]提供了两个基于ImageNet-200和ImageNet-1K的大规模基准,结合了带有图像损坏的ImageNet-C[117]、带有风格变化的ImageNet-R[118]和带有重采样偏差的ImageNet-V2[120]作为ID。至于基于CLIP的方法,LSA[115]使用双向提示定制机制,调整判别ID和OOD边界。
4.3.2 其他任务与基于CLIP的OOD检测
无监督通用微调 基于CLIP的OOD检测对于一个新任务称为无监督通用微调(UUFT)[49]很有用。UUFT是一个无监督学习的离群检测问题。现有的无监督学习研究假设所有未标记图像属于其中一个ID类别[121, 122, 123],但它们需要与真实标签相关联的先验知识,这在各种现实世界情况下限制了它们的实用性。对于更现实的情况,UUFT假设未标记图像中包含OOD图像。为了在训练期间检测OOD图像,他们开发了MCM[26],并提出了UEO,利用样本级置信度来近似最小化置信实例的条件熵并最大化不太置信实例的边际熵。
开放世界提示调优 基于CLIP的OOD检测对于一个新任务称为开放世界提示调优[124]很有用。开放世界提示调优是一个任务,评估模型在训练模型时使用已知类别的混合已知和新型ID类别的分类准确性。为了解决这个问题,Zhou等人[124]提出了DeCoOp,它将OOD检测纳入推理管道,并提高基础类别和新类别之间的区分性,防止新类别的性能下降。
5 基于CLIP的AD:方法
在本节中,我们介绍了基于CLIP的异常检测(AD)的方法,希望通过对每个领域的对比,能够加深对基于CLIP的OOD检测的理解。
5.1 零样本异常检测
基于CLIP的零样本AD由Jeong等人[27]在2023年提出。虽然它比OOD检测晚大约两年开始,但到目前为止已经提出了许多方法。
零样本AD的定义 零样本AD中“零样本”的含义与零样本OOD检测类似。在零样本AD中,“零样本”指的是在训练和推理阶段不使用目标域中的图像。例如,使用辅助数据集进行额外训练的方法可以被视为零样本方法[29, 62, 63, 64, 65]。对目标类别文本进行预处理的方法也可以被视为零样本方法[67, 61, 22]。
5.1.1 无训练方法
使用异常提示 在零样本AD中,一种常见的方法是利用异常提示来检测异常。这一假设得到了现有工作[27]的几个观察结果的支持。首先,正常性和异常性的概念是对象的上下文相关状态[125],语言在定义这些状态中起着关键作用。其次,语言提供了额外的见解,有助于区分缺陷和正常性中的可接受变化。
最简单的零样本AD方法是(i)使用CLIP进行异常分类,使用正常和异常的文本提示作为类别(即“正常[类别]”与“异常[类别]”)和(ii)计算与正常提示(即“正常[类别]”)的相似度作为分数。这些方法称为CLIP-AC[27]。Jeong等人[27]报告说,使用正常和异常提示的CLIP-AC优于仅使用正常文本提示的CLIP-AC,这表明使用异常提示的重要性。然而,这种朴素方法的性能尚未令人满意,因为异常的变异范围很广。为了解决这个问题,Jeong等人[27]提出了WinCLIP。WinCLIP在一个大量预定义的正常和异常模板上的组合集成,并有效地提取和聚合与文本对齐的窗口/补丁/图像级特征。WinCLIP大大优于CLIP-AC。由于其简单性和开创性工作,WinCLIP已成为基于CLIP的AD的一个重要基线。AnoCLIP[61]遵循WinCLIP使用大量预定义的正常和异常模板的方法,但修改模板以使其领域感知(例如,工业照片)和正常和异常的对比状态(例如,完美和不完美)。然而,值得注意的是,以前方法的集成策略的性能在很大程度上取决于文本描述[27, 61]。还观察到,更多的描述并不总是更好[62],这使得以前使用大量模板集成的朴素方法[27, 61]在应用中有些不可控和随机。因此,SDP[62]提出了RVS,一种代表向量选择范式,使从大量模板中提取代表向量的机制可控,允许更多样化的代表向量选择。
5.1.2 辅助训练方法
与基于CLIP的OOD检测不同,所有辅助训练的零样本AD方法都是开放词汇AD方法,通过简单地改变类别提示在未见过的目标数据集上进行训练和测试。现有方法在一个数据集的测试集上进行监督训练,并在另一个数据集上进行零样本测试[29, 63, 65](例如,使用MVTec-AD进行训练并在VisA上进行评估。)
近年来,辅助训练方法的发展比无训练的零样本方法更受关注。有两个主要原因需要训练:(i)首先是语义和异常之间的领域差距。CLIP预训练以理解图像的语义,因此在零样本应用中,它捕捉图像的语义。然而,实际异常不是语义,而是对象的状态,仅出现在图像的局部区域。因此,如果不进行训练,这种语义和异常之间的领域差距无法弥合。(ii)第二个原因是依赖大量手工制作的异常提示存在局限性。这会产生提示创建成本,也难以应对未知的异常。因此,通过将异常提示替换为可学习的参数,他们旨在解决高成本和有限的新异常适应性。
为了解决上述问题(i),提出了APRIL-GAN(也称为VAND)[63]。APRIL-GAN通过在视觉编码器中添加额外的线性层来解决语义和异常之间的领域差距。这些线性层将每个尺度的图像特征投影到文本空间,在每个阶段创建和聚合异常图。类似地,SDP+[99]也在SDP[99]中加入了额外的线性层,以有效地将图像特征投影到文本特征空间,解决图像和文本之间的错位。为了解决问题(i)和(ii),提出了AnomalyCLIP[29]。AnomalyCLIP是一种基于提示学习的方法,类似于CoOp。通过将异常提示替换为可学习参数,它消除了准备大量手工预定义提示的需要,如WinCLIP[27]。此外,与CoOp学习对象语义不同,AnomalyCLIP学习对象无关的文本提示,捕捉图像中通用的正常性和异常性,无论其语义如何。为此,AnomalyCLIP为正常和异常引入了对象无关的文本提示模板,并进行全局和局部上下文优化。一个更近期的方法,Filo[65]利用大语言模型(LLMs)为每个对象类别生成细粒度的异常描述。这种方法用LLM生成的特定异常内容替换通用异常描述。通过在生成的异常提示前添加可学习提示,Filo进行全局和局部上下文优化,增强了异常检测能力。作为一个独特方向,RWDA[64]提出了一种数据增强方法,利用CLIP的文本嵌入作为训练数据。RWDA在正常和异常提示中添加随机生成的单词,生成多样化的正常和异常训练样本,并使用多样化的文本嵌入训练一个常规的前馈神经网络。
5.2 小样本异常检测
基于CLIP的小样本AD由Jeong等人[27]在2023年提出,与零样本AD的发展同时进行[27]。传统的小样本AD研究侧重于从有限数量的正常样本中建模正常分布以检测异常[126, 127, 128, 129, 130, 131, 132, 133]。然而,这些方法通常难以泛化到新领域,因为它们通常需要在目标数据集上重新训练。随着CLIP的出现,小样本AD领域正在转向仅在测试时使用少量目标图像进行推理,而无需训练。
小样本AD的定义 基于CLIP的小样本AD旨在仅使用少量目标域中的图像检测异常图像。“小样本”的含义与小样本OOD检测类似。在小样本AD中,“小样本”指的是在训练或推理阶段使用少量目标域中的正常图像。例如,使用少量目标域中的正常图像进行额外训练的方法可以被视为小样本方法[28, 41]。即使没有训练,如果一种方法使用少量目标域中的正常图像作为参考,我们也将其视为小样本方法[27]。
5.2.1 无训练方法
基于CLIP的小样本AD的最早方法是WinCLIP+[27],WinCLIP的改进方法。WinCLIP,一种基础的零样本AD方法,无法识别只能通过视觉而非文本定义的某些缺陷。例如,MVTecAD中的“Metal-nut”类别有一种异常类型标记为“倒置”,只能通过与正常图像的相对位置来识别。为了解决这个问题,WinCLIP+将少量正常参考图像纳入内存库[134],并计算查询图像与内存库中最相似图像之间的余弦相似度作为异常分数。
5.2.2 ID训练方法
基于CLIP的小样本AD研究中几乎没有训练方法,尽管基于CLIP的小样本OOD检测积极探索训练方法。这可能是因为在未知类别中检测异常在实际应用中非常有价值,而使用目标数据进行训练可能会使小样本异常检测任务过于简化。这种简化担忧是因为已知类别的异常空间比OOD检测的异常空间要有限得多。使用目标数据进行训练可能会使任务过于简化,降低其难度。该领域唯一的现有工作是PromptAD[33],一种针对单类别AD的提示学习方法(其中正常类别由一个类别组成)。在单类别AD中,传统的多类别分类提示学习方法(例如,CoOp[24])效果不佳。为了解决这个问题,PromptAD通过在正常提示后添加可学习的异常后缀,创建了大量异常提示。然后,它学习使视觉特征更接近正常提示,并远离异常提示,从而实现单类别AD的提示学习。
5.2.3 辅助训练和参考方法
我们探索了在辅助数据集上训练并在推理期间使用目标域中的正常图像作为参考的方法。该类别中的早期工作是APRIL-GAN(小样本)[63],它使用在辅助数据集上训练的线性层。与WinCLIP+[27]类似,APRIL-GAN(小样本)使用少量ID参考图像与内存库方法[134]。更近期的方法,Zhu等人[35]提出了基于上下文学习的InCTRL。InCTRL训练模型通过学习识别查询图像与一组少量正常图像(上下文样本提示)之间的残差或差异来区分异常样本和正常样本。在推理期间,InCTRL通过测量查询图像的特征与目标数据集中少量上下文正常样本之间的差异来识别异常。
5.3 其他研究方向
5.3.1 使用定位模型的异常检测
一些工作[135, 136]使用SAM[57]或DINO[56]等定位基础模型进行AD。代表性工作是SAA和SAA+[135]。SAA是一种简单的基线方法,使用Grounding-DINO[56]进行异常区域生成,使用SAM[57]进行异常区域精炼。SAA+是SAA的改进方法,它将领域专家知识和目标图像上下文纳入SAA。由于AD需要定位,预计使用SAM等定位基础模型的作品数量将继续增加。
5.3.2 医学异常检测
虽然大多数基于CLIP的AD工作侧重于工业AD,但最近的研究开始挑战医学异常检测(医学AD)[35, 36, 62, 137, 138]。基于CLIP的医学AD比工业AD更具挑战性,因为不同数据模态之间的差距更大。医学AD的一个代表性工作是MVFA[36]。MVFA是一种专门为医学AD设计的方法。它将多个残差适配器纳入CLIP的视觉编码器,以减少领域差距,从而在不同层次上逐步增强视觉特征。医学AD和工业AD的未来发展提供了一个有趣的前景,探索这些领域是独立发展还是相互影响。然而,在考虑实际应用时,应注意医学AD面临的挑战是异常并不总是可以用语言描述。因此,开发不使用CLIP的医学AD方法也很重要。
5.4 讨论
我们讨论了基于CLIP的OOD检测和基于CLIP的AD之间的相似性和差异性,以加深对基于CLIP的OOD检测的理解。
5.4.1 每种方法的差异
OOD的不同范围 OOD检测和AD在覆盖的OOD(异常)范围上有显著差异,这导致了方法上的差异,特别是在使用OOD提示方面。如第3节所述,感官AD旨在用于特定情况,如工业检查,其中偏离预定义正常性的样本(例如,有缺陷的产品)被视为异常[11, 22]。换句话说,在感官AD中,异常空间仅限于具有共享语义的损坏对象,不期望像狗的图像这样的异常。这种有限的异常空间使得即使是简单的提示也能取得不错的性能。因此,如表II所示,所有AD方法都使用异常提示。相反,在OOD检测中,如第3.1节所述,任何语义上不同于ID类别的都是OOD。因此,使用朴素的OOD提示是禁止的(即使它提高了基准性能)。OOD空间的广阔性是区分这两个领域方法的关键因素。
检测OOD所需的基本特征 基于CLIP的OOD检测和基于CLIP的AD在需要捕捉的特征上有显著差异。在基于CLIP的OOD检测中,理想情况下是学习一个更紧凑的ID决策边界,对ID数据产生低不确定性,对OOD数据产生高不确定性[28]。另一方面,基于CLIP的AD旨在学习异常,而不是ID决策边界,以检测异常[29]。学习的特征完全不同,这有助于开发每种训练方法。
定位任务的难度 基于CLIP的OOD检测和基于CLIP的AD在OOD(异常)定位任务的难度上有显著差异。在基于CLIP的AD中,异常分割是一个主流任务,许多论文中经常与分类一起进行。然而,在基于CLIP的OOD检测中,没有关于对象级OOD检测/分割的研究。对象级OOD检测旨在检测OOD对象[139, 140, 141]。这种不活跃与OOD空间的大小有关,OOD空间太大,难以使用提示有效识别OOD对象。为了为未来的发展铺平道路,定位基础模型如SAM[57],可以分割单个对象,有可能解决对象级OOD检测/分割。使用SAM进行对象级OOD检测/分割是一个有前途的未来研究方向。
5.4.2 每种方法的相似性
每个问题设置 基于CLIP的AD和基于CLIP的OOD检测的现有问题设置相似。两者主要侧重于零样本和小样本设置,可以分为无训练、辅助训练和ID训练方法。通过更仔细地检查每个问题设置,我们可以观察到,例如,虽然开放词汇AD在基于CLIP的AD中占主导地位,但在基于CLIP的OOD检测中尚未深入探索。这对于OOD检测的未来方向提供了宝贵的见解。
方法的历史 基于CLIP的AD和基于CLIP的OOD检测的方法进展历史相似。例如,两者最初都从使用手动OOD提示的朴素方法开始(ZeroOE[38]用于OOD检测,WinCLIP[27]用于AD)。为了解决这些初始方法的问题,后续方法出现了,将OOD提示替换为可学习参数(LSN[44]和NegPrompt[47]用于OOD检测,AnomalyCLIP[29]用于AD)。因此,通过仔细检查彼此的领域,未来有可能相互增强和互动。
6 LVLM时代的演变
在本节中,我们介绍了大视觉语言模型(LVLM)时代OOD检测和AD的早期进展。虽然前几节主要关注CLIP等VLMs,但本节将重点转向更新兴的“大”VLMs。计算机视觉的最新进展导致了GPT-4V[30]和LLaVA[31]等LVLMs的出现。尽管这些领域仍处于早期阶段,论文数量有限,但本综述提供了对每个问题的深入介绍,希望我们的详细回顾能够帮助促进该领域的进一步进展。
6.1 每个问题的变化
i. 感官AD → 感官AD感官AD在LVLM时代继续发展[142, 144, 145]。LVLMs的使用使得AD适用于许多领域和模态[142]。
ii. OOD检测 → 不可解问题检测在LVLM时代,OOD检测演变为一个新的任务,称为不可解问题检测(UPD)[143]。UPD评估LVLMs识别和拒绝意外或不可解输入问题的能力,有效地将OOD检测的范围扩展到视觉问答(VQA)任务的背景下。这一转变显著扩大了OOD检测的概念,涵盖了涉及LVLMs的更广泛的人工智能任务。
6.2 不可解问题检测
6.2.1 问题总结
背景 随着LLMs[146, 147, 148, 149, 150, 151]的革命性发展,LVLMs[149, 152, 153, 154, 155, 156, 157, 158, 159]在各种应用中展示了显著的能力[160, 161, 162, 163]。然而,这些模型的可靠性和生成准确可信信息的能力引起了重大关注。这些模型经常产生错误或误导性信息,这种现象称为“幻觉”[32]。在各种幻觉问题[32]中,识别不合适问题的挑战对于在安全关键应用中部署LVLMs至关重要。这一挑战将OOD检测的概念扩展到LVLMs的VQA任务,代表了LVLMs可信度的一个特定方面。
定义 不可解问题检测(UPD)是一项任务,旨在衡量LVLMs的可靠性,评估模型在面对不可解问题时拒绝回答的能力。UPD任务可以分为三种不同的问题类型:缺失答案检测(AAD)、不兼容答案集检测(IASD)和不兼容视觉问题检测(IVQD)。每种设置的详细信息如下:
-
缺失答案检测(AAD):AAD评估模型在提供的选项中没有正确答案时确定的能力。
-
不兼容答案集检测(IASD):IASD评估模型识别答案选择完全与给定问题和图像无关的能力。
-
不兼容视觉问题检测(IVQD):IVQD评估模型识别问题和图像是否不相关或不匹配的能力。
基准 Miyai等人[143]为UPD挑战创建了MM-UPD Bench。MM-UPD包括MM-AAD、MM-IASD和MM-IVQD基准,用于每种UPD问题。每个基准都是在MMBench(dev)[162]的基础上创建的,这是一个系统设计的客观基准,用于评估LVLMs的各种能力。根据MMBench中每种能力的定义(例如,“粗略感知:图像场景”和“逻辑推理:未来预测”),MM-UPD从各种能力评估LVLMs的可靠性。
尽管MM-UPD是主要基准,但创建UPD问题的适应成本不高,使其高度适用于其他基准。例如,最近提出的MuirBench[164],一个用于多图像理解的综合基准,通过添加不可解问题,将UPD的概念纳入其中。
应用 UPD在从LVLMs的日常使用到机器人操作的广泛应用中具有重要意义。特别是在将LVLMs纳入安全关键领域,如机器人操作[165]和自动驾驶[166],如果LVLM未能识别错误的用户问题并做出错误预测,可能会导致重大问题。UPD作为一项任务,确保在这些安全关键场景中的安全性。
评估 UPD引入了新的评估指标,结合了OOD检测的评估协议概念,考虑了标准(ID)和UPD(OOD)样本的预测分布。其原理是,理想的LVLMs不仅应在标准问题上给出正确答案,还需要在UPD场景中拒绝回答,其中问题是不可解的。为了更好地反映LVLMs的理想行为,UPD测量几个指标:(i)标准准确性:图像、问题和答案集都对齐的标准问题的准确性,且提供的选项中始终包含正确答案。(ii)UPD准确性:AAD/IASD/IVQD问题的准确性。(iii)双准确性:标准和UPD对的准确性。只有在模型在标准和UPD问题上都正确时才算成功。
6.2.2 发现
以下,我们简要总结了UPD挑战的发现[143]。
1. 大多数LVLMs几乎不犹豫回答。 大多数LVLMs,尤其是开源LVLMs,UPD准确性显著较低,这表明UPD挑战的难度。例如,LLaVA-1.5[31]和CogVLM[155],这是最先进的LVLMs,完全无法拒绝回答。GPT-4V由于其安全训练过程[167],表现优于其他LVLMs。然而,与上限分数仍有性能差距。
2. 基准中每种能力的性能趋势差异很大。 LVLMs在MM-UPD Bench中每种能力的性能不同。例如,GPT-4V在属性比较方面有其局限性,而LLaVA-NeXT-34B在对象定位方面有其局限性。
3. 不同LVLMs的有效提示策略各不相同。 不同LVLMs的有效提示策略各不相同。在原始论文中,他们实验了基于选项的提示方法,添加了一个“以上都不是”的选项,以及基于指令的方法,添加了一个指令“如果所有选项都不正确,回答以上都不是”。结果,每种方法的有效性因LVLMs的类型而显著不同。这突出了为所有LVLMs找到有效提示策略的难度。
6.3 LVLM时代的异常检测
6.3.1 问题总结
背景 异常检测是一项在各种领域和数据类型中至关重要的任务。然而,现有的异常检测模型通常是为特定领域或模态设计的[142]。此外,当前的AD方法仅提供测试样本的异常分数,并需要手动阈值来区分每个样本的正常和异常实例[144]。为了促进实际应用,开发一个能够在各种领域和模态中用自然语言表达异常的系统至关重要,以确保更广泛的用户可访问性。
定义 AD的定义与传统和基于CLIP的AD保持一致,旨在识别偏离预定义正常性的样本。关键区别在于输出。虽然以前的方法产生异常分数,需要手动阈值,但使用LVLMs的AD旨在识别和描述异常,使用文本消除手动阈值的需要,并增强人类可解释性。
基准 由于LVLMs的AD领域仍处于婴儿阶段,目前还没有统一的基准。AnomalyGPT[144]侧重于工业图像异常检测/定位,并使用标准基准MVTec-AD[52]和VisA[53]。更近期的,Cao等人[142]扩展了领域和模态,并展示了在工业图像异常检测/定位(例如,MVTec-AD[52])、点云异常检测(MVTec 3D[168])、医学图像异常检测/定位(例如,胸部X光[169],头部CT[170])、逻辑异常检测(例如,MVTec LOCO[171])、行人异常检测(例如,UCF-Crime数据集[172])、交通异常检测(例如,Kaggle事故检测[173])和时间序列异常检测(例如,离群检测数据集[174])中的应用。
评估 使用LVLMs进行异常检测的评估是一个开放的挑战。AnomalyGPT[144]询问LVLMs问题“这张图像中有异常吗?”,并根据简单规则方法确定异常或正常,基于响应是否包含“是”或“否”。然而,这种基于规则的方法不够稳健,因为即使“是”后的解释完全错误,响应也被认为是正确的。另一方面,Cao等人[142]仅进行了定性评估,并将定量评估作为开放挑战。因此,使用LVLMs进行异常检测的评估是未来的挑战。
6.3.2 发现
Cao等人[142]在论文中描述了GPT-4V的观察结果,因此我们在这里简要总结它们。
1. GPT-4V在各种模态和领域的零样本/单样本设置中表现出色。 GPT-4V在多模态(例如,图像、点云、X光)和多领域(例如,工业、医学、行人、交通和时间序列异常检测)中识别异常方面表现出色。此外,GPT-4V在零样本和单样本设置中展示了强大的性能。
2. GPT-4V可以理解全局和细粒度异常。 GPT-4V可以识别全局和局部异常模式或行为,这表明其理解全局和细粒度语义的能力。
3. GPT-4V可以通过增加提示得到增强。 通过提供更多上下文和信息,模型显著提高了其准确检测异常的能力。
7 潜在挑战
本节讨论了基于CLIP的OOD检测的潜在挑战,这些挑战可能因广泛采用我们的框架而凸显。由于目前存在类似或模糊的问题设置,我们提出这些挑战以避免未来读者的混淆。
7.1 开放词汇OOD检测
现有的开放词汇OOD(OV-OOD)检测设置[47]涉及在训练期间使用一小部分ID类别的图像,并在评估时使用所有ID类别名称,如第4.2.1节所述。然而,这个问题的定义有几个问题:(i)训练子集中未包含的ID类别的OOD检测性能不明确,(ii)这与现有的开放词汇设置相矛盾,包括基于CLIP的AD(第5.1.2节),这些设置假设训练和测试ID数据之间没有明确的类别重叠[29, 63, 65, 175, 176],导致领域内的混淆。因此,为了清晰的评估和共同理解,我们将OV-OOD检测重新定义为类内开放词汇OOD检测(类内OV-OOD检测)和零样本开放词汇OOD检测(零样本OV-OOD检测)。每个设置的图示如图5所示。每个设置的详细解释如下:
类内OV-OOD检测类内OV-OOD检测与[47]提出的原始设置相同,涉及在训练期间使用一小部分ID类别的图像,并在评估时使用所有ID类别名称,包括训练类别。类内OV-OOD检测应在小样本OOD检测设置中进行评估,以评估这些方法在使用有限类别数据进行训练时的性能。在这个设置中,最好采用现有的基准设置,随机从所有ID类别中选择子集ID类别[47]。
零样本OV-OOD检测零样本OV-OOD检测与类内评估共享相同的训练设置,使用一小部分ID类别。然而,它在测试阶段仅使用未包含在训练子集中的类别。这个问题的设置与常见的开放词汇设置一致[175, 176],以及基于CLIP的AD中的开放词汇设置[29, 63, 65]。零样本OV-OOD检测可以定位在零样本OOD检测领域,这将促进零样本OOD检测的研究。在选择训练的类别子集时,我们应确保评估和训练集中的类别在语义上不相似,以保证零样本问题设置的有效性。例如,在将ImageNet类别划分为训练和评估子集进行零样本OV-OOD检测时,最好考虑ImageNet的层次类别,以避免训练和评估子集之间的相似语义。
7.2 基于CLIP的全谱OOD检测
基于CLIP的全谱OOD(FS-OOD)检测是一个已建立的任务,已有相关研究[115]。然而,随着未来硬OOD检测的普及,该任务与开放集领域泛化(OSDG)[177, 178, 179, 180]之间的区别可能会变得模糊。OSDG共享实现既能泛化又能检测的模型的动机。图6(a)(b)展示了两种问题设置的图示。OSDG假设在测试期间只会输入具有协变量偏移的数据,并旨在如果输入样本的语义与ID类别对齐,则将其分类为其中一个ID类别,并检测表现出语义偏移的OOD。OSDG是一个研究领域,论文数量远少于本综述的主要主题(OD、AD、ND、OSR和OOD检测),但在近年来,一些工作使用CLIP解决了OSDG[181, 71, 182]。
为了消除潜在的模糊性,本文根据我们的广义OOD检测v2定义了一个硬全谱OOD(FS-OOD)检测。图6(c)展示了硬FS-OOD检测的问题设置图示。硬FS-OOD检测通过利用传统的OSR设置扩展了现有的FS-OOD检测的范围。它引入了训练域中不同类别的OOD样本和共享与目标域相同协变量偏移但表现出语义偏移的OOD样本。这个任务可以被视为现有FS-OOD检测和OSDG任务的扩展版本。硬FS-OOD检测代表了未来研究的一个有前途的挑战。
8 未来方向
在本节中,我们讨论了OOD检测和UPD的未来方向。对于OOD检测,我们不仅探讨了VLMs的OOD检测,还探讨了单模态OOD检测,特别关注随着VLMs的发展而出现的新挑战。对于OOD检测的长期挑战的讨论,我们可以参考之前的广义OOD检测论文[22]。
8.1 视觉语言模型的OOD检测
a. 硬OOD检测 硬OOD检测在未来将变得越来越重要,因为它具有高实用性和问题的挑战性。硬OOD检测利用OSR的基准设置,其中单个数据集中的某些类别被指定为ID,其他类别为OOD。在这个领域中,不仅使用小数据集如ImageNet-10和ImageNet-20[26],还使用包含更多类别的大数据集如ImageNet-protocol[54]。许多现有研究,如LoCoOp[28]和LSN[44],主要使用常见的ImageNet OOD基准,因此硬OOD检测尚未得到充分研究。这个领域将在未来进一步发展。
b. 后处理方法 提出后处理方法对于基于CLIP的OOD检测的基本性能提升至关重要。直接使用ID分类器的方法,如MCM[26],被称为后处理方法。在CLIP出现之前,提出了各种方法[101, 102, 103, 104, 105, 108, 109, 111, 183, 184]。然而,基于CLIP的后处理方法通常在零样本设置中表现不如使用OOD提示的方法,因此它们在零样本OOD检测中没有得到广泛研究。然而,我们应该关注后处理方法的可扩展性。后处理方法[26, 96]可以轻松应用于许多后续方法[28, 44, 47, 185],带来基本的性能提升。此外,最近,专门为提示学习方法设计的后处理方法也出现了[86]。因此,提出后处理方法并展示它们不仅在零样本设置中的改进,而且在后续小样本设置中的改进[28, 185]是至关重要的,即使它们在零样本设置中表现不如使用OOD提示的方法。这个领域应该继续发展,反映出在CLIP出现之前的发展轨迹。
c. 与闭集分类器的桥梁 OOD检测确保了ID分类器的安全性,因此弥合现有闭集分类器的进展与OOD检测之间的差距至关重要。目前,小样本OOD检测的代表性方法是LoCoOp[28],一种基于文本提示学习的方法。然而,在闭集设置中,除了CoOp之外,还提出了其他基于文本提示学习的小样本学习方法[186, 187, 188]。此外,基于文本的提示学习方法仅训练文本提示,因此无法处理图像域的差异。因此,采用能够处理图像域差异的方法[189, 190, 191]进行OOD检测,对于弥合闭集ID分类器与OOD检测之间的差距至关重要。
d. 无训练的小样本OOD检测 无训练的小样本OOD检测的研究方向仍处于婴儿阶段,只有一项现有研究[99]。考虑到小样本OOD检测中训练方法的普及,提出不需要训练的方法至关重要。考虑到基于CLIP的异常检测中无训练方法的进展,我们预计基于CLIP的OOD检测将遵循类似的轨迹。未来的方向包括改进基于适配器的方法或利用外部知识,如检索增强[192, 193]。解决无训练的小样本OOD检测是实现未来更计算高效的OOD检测的关键步骤。
e. 全谱OOD检测 基于CLIP的全谱OOD(FS-OOD)检测是一个有前途的研究领域[115, 116]。在实际应用中,创建既能检测语义偏移OOD输入又能泛化到协变量偏移数据的模型具有强烈的动机[116, 194]。在基于CLIP的方法中,OOD检测和泛化通常在单独的上下文中讨论[198, 29],导致检测和泛化性能之间的权衡[98]。此外,在区分FS-OOD检测和开放集领域泛化之间存在潜在的模糊性。为了消除潜在的模糊性,我们提出了一个潜在的问题设置,称为硬FS-OOD检测。我们希望这篇综述能够激发FS-OOD检测的进一步进展和开发。
f. 开放词汇OOD检测 开放词汇OOD(OV-OOD)检测具有高实用潜力,但仍处于婴儿阶段[47]。特别是,如第7.1节所述,零样本OV-OOD检测是一个潜在的研究领域。我们希望这篇综述论文能够激发未来在OV-OOD检测方面的努力。
g. 对象级OOD检测 对象级OOD检测仍然是一个未探索的领域。如第5.4节所述,这是由于OOD空间的广阔性,使得使用文本有效识别OOD对象变得困难。为了为未来的进展铺平道路,基础定位模型如SAM[57]提供了有前途的解决方案。通过将这些模型与方法如MCM[26]集成,我们有可能实现对象级OOD检测和分割,开辟OOD检测研究的新前沿。
8.2 单模态OOD检测
a. 利用大型预训练模型 利用大型预训练模型对于单模态OOD检测至关重要。许多OOD检测方法使用从头开始训练的骨干网络,并不利用预训练模型[22, 101, 104, 108, 109, 119, 196, 197]。在最近的研究中,Miyai等人[198]系统地研究了预训练对OOD检测的影响,从OOD数据类型和预训练算法的角度[199, 200]。Dong等人[201]探索了单模态OOD检测的参数高效学习,并提出了DSGF,利用微调特征和原始预训练特征。虽然利用大型预训练模型[202]进行轻量级调优是单模态闭集分类中的一个活跃研究领域[191, 203],但在单模态OOD检测方面的研究有限,这为未来的研究提供了有前途的方向。
b. 真实世界的基准和评估 考虑到基于CLIP的OOD检测的未来发展,应越来越多地关注扩展基准的范围,以涵盖CLIP不太适用的真实世界场景。例如,最近,Baek等人[204]引入了ImageNet-ES,通过在受控测试台上使用实际相机直接捕捉202k图像,涵盖了环境和相机传感器因素的变化,弥合了常见基准与真实世界场景之间的差距。此外,利用考虑真实世界数据偏移的数据集,如WILDS[205, 206],或用于医学OOD检测的数据集[207],可以提供有价值的见解,特别是在自动驾驶和医学图像分析等安全关键应用中。
8.3 不可解问题检测
a. 探索有效解决方案 提出有效解决方案对于UPD至关重要。一种潜在的方法是将OOD检测的方法适应UPD。例如,LVLM的响应困惑度可以用作识别不可解查询的分数。此外,提出模型无关的后处理方法也很重要,以提高许多LVLMs的可靠性。因此,将OOD检测技术概念纳入UPD是未来工作的一个重要方向。
b. 扩展到多样化的基准 MM-UPD Bench由通用QA数据集组成。然而,UPD可以纳入更多样化的基准,包括特定领域知识的高级推理[163, 208]和多图像理解[164]。例如,MuirBench[164]将UPD的概念作为鲁棒评估的指标。将UPD概念纳入基准对于评估LVLMs在其目标任务中的鲁棒性和可信度至关重要。
c. 对UPD的理论理解 理论上理解UPD的难度可以为社区提供有价值的见解。理论化LVLMs的行为在领域中提出了一个共同的挑战,突出了社区内合作努力的重要性。
9 结论
在这篇综述中,我们全面回顾了VLM时代五个问题(AD、ND、OSR、OOD检测和OD)的演变,并提出了广义OOD检测v2的框架。我们的框架确定了VLM时代的主要挑战是OOD检测和AD,这突出了每个社区面临的挑战性问题,并促进了合作努力。通过阐述定义、问题设置和基准的变化,我们鼓励后续工作准确理解VLM时代其演变的目标问题。通过整理方法,我们希望读者能够轻松掌握主流方法,识别重要基线和新的问题设置,并提出未来的解决方案。通过揭示LVLM时代的最新研究,我们希望每个社区的研究人员能够确定这一新兴时代的潜在研究方向。通过提供未来方向,我们希望我们的综述能够澄清VLM和LVLM时代未来工作需要解决的任务,从而促进正确的未来进展。