Recent Advances in Open Set Recognition: A Survey

摘要:在现实的识别/分类任务中,由于受到各种客观因素的限制,在训练一个识别器或分类器时,通常很难收集到训练样本来涵盖所有的类。更现实的情况是开放集识别(open set recognition, OSR),在训练时存在对世界不完整的知识,测试时可以将未知的类提交给算法,这就要求分类器不仅要对可见的类进行准确的分类,还要有效地处理不可见的类。本文提供了对现有开放集识别技术的全面调查,涵盖了从相关定义、模型表示、数据集、评估标准和算法比较等各个方面。此外,我们还简要分析了OSR与零样本、一次样本(少样本)识别/学习技术、带有拒绝选项的分类等相关任务之间的关系。此外,我们还回顾了开放世界识别,它可以看作是OSR的自然延伸。重要的是,我们强调了现有方法的局限性,并指出了该领域后续的一些有前景的研究方向。

1、INTRODUCTION

       在闭集假设(静态环境)下,传统的识别/分类算法已经在各种机器学习(ML)任务中取得了显著的成功。然而,更现实的场景通常是开放的、非平稳的,如无人驾驶、故障/医疗诊断等,看不到的情况可能会意外出现,这大大削弱了这些现有方法的鲁棒性。迎接这一挑战,终身学习已经探讨了一些相关的研究主题[1],[2],迁移学习[3],[4],[5],域适应[6],[7],zero-shot [8],[9],[10],one-shot (few-shot) [11],[12],[13],[14],[15],[16],[17],[18],[19],[20]识别/学习,开集识别/分类[21],[22],[23],等等。

        基于Donald Rumsfeld著名的“There are known knowns”命题[24],我们进一步扩展了[22]断言的类的基本识别类别,重申识别应考虑以下四种类的基本类别:

1)已知的已知类(KKCs),即,有明显标记为正训练样本的类别(其他KKCs也作为负样本),甚至有相应的附加信息,如语义/属性信息等;

2)已知的未知类(KUCs),即,标记为负样本,分组成不一定有意义的类别,如 the background classes [25], the universum classes [26];

3)未知的已知类(UKCs),即,训练中没有可用样本的类,但在训练中有可用的附加信息(如语义/属性信息);

4)未知的未知类(UUCs),即,在训练中没有任何相关信息的类别,不仅是未知的,而且在训练中没有附加信息(如语义/属性信息等)。

      图1给出了使用t-SNE[27]从真实数据分布中可视化KKCs、KUCs和UUCs的例子。

        由于UKCs和UUCs的主要区别在于它们的附加信息是否可用,所以我们在这里只对UUCs进行可视化。传统的分类只考虑KKC,而包括KUCs将导致模型有一个明确的“其他类”,或用未定义的负样本训练检测器[22]。与传统的分类不同,零样本学习(ZSL)更关注UKCs的识别。俗话说:如果不假设过去和未来的关系去预测是不可能的。ZSL利用KKCs和UKCs之间共享的语义信息来实现这样一个识别[8]、[9]。事实上,假设测试样本只来自UKCs是非常严格和不切实际的,因为我们通常对KKCs或UKCs都一无所知。另一方面,自然界中物体频率服从长尾分布[28]、[29],说明KKCs比UKCs更常见。因此,一些研究者开始关注广义零样本 (GZSL)[30]、[31]、[32]、[33],其测试样本同时来自KKCs和UKCs。作为一个与ZSL密切相关的问题,当训练中有少量的UKCs样本[11]、[12]、[13]、[14]、[15]、[16]、[17]、[18]、[19]、[20]可用时,one/few-shot learning(one/few-shot learning, FSL)可以看作是零样本学习的自然延伸。与GZSL类似,FSL在测试中同时考虑KKCs和UKCs的更符合实际的设置,即广义少样本学习  (GFSL)[34]也越来越流行。与(G)ZSL和(G)FSL相比,开放集识别(OSR)[21]、[22]、[23]可能面临更严峻的挑战,因为只有KKCs没有属性等任何其他附加信息,也没有UUCs的样本数量。

       开放集识别[21]描述了训练中没有看到的新类(UUCs)在测试中出现的情况,要求分类器不仅要对KKCs进行准确的分类,还要有效地处理UUCs。因此,当测试样本来自某个UUC时,分类器需要有相应的reject option。图2给出了传统分类和OSR问题的对比演示(开集识别限制已知类的决策边界,为UUC预留了空间)。需要注意的是,文献中已经有很多关于reject option[35]、[36]、[37]、[38]、[39]、[40]、[41]、[42]、[43]、[44]的分类工作。尽管在某种意义上说,reject option任务不应该和开集识别混淆,因为它仍然工作在闭集的假设下,而相应的分类器由于置信度不足拒绝识别输入样本,避免划分一类的样本成另一类的样本。

        此外,通常用于异常检测(anomaly detection)的one-class分类器[46],[47],[48],[49],[50],[51],[52],[53]似乎适合OSR问题,通过建模训练数据的经验分布,这样可以在特征空间的各个方向上脱离周围的开放空间(远离已知/训练数据的空间)。常用的 one-class 分类方法有 one-class SVM[46] 和支持向量数据描述(SVDD)[48]、[54],其中 one-class SVM 以最大的margin将训练样本从特征空间的原点分离出来,而支持向量域描述(SVDD)以最小体积的超球面封装训练数据。请注意,在one-class设置中,将多个KKC视为单个KKC显然忽略了这些KKC之间的判别性信息,从而导致[23]和[55]性能较差。即使像[37]中提出的那样,每个KKC都由单个的单类分类器建模,其新颖度检测性能仍然很低。因此,有必要针对OSR问题,特别是多类OSR问题,重新构建有效的分类器。

       作为总结,表1列出了开放集识别和上面提到的相关任务之间的区别。事实上,OSR已经在许多框架、假设和名称[56]、[57] 、[58]、[59]、[60]下进行了研究[61]。在关于人脸识别评价方法的研究中,Phillips等人[56]提出了一个典型的开放集身份识别框架,而Li和Wechsler[57]再次从评价的角度看待开放集人脸识别,提出了开放集TCM-KNN(转换置信机-k近邻)方法。Scheirer [21]首先将开放集识别问题形式化,并提出了初步的解决方案:1-vs-set machine,该方案在建模中纳入开放空间风险项,以说明超出KKCs合理支持范围的空间。注意,OSR在最近的ZSL[10]调查中被提到,但是,它没有被广泛讨论。与[10]不同,我们在这里提供了关于OSR的全面回顾。

       本文的其余部分组织如下。在接下来的三个部分中,我们首先给出基本符号(第2节)和相关定义。然后我们从建模的角度分类现有的OSR技术,并且对于每个类别,我们评估不同的方法,详细给出了表2(第3节)。最后,我们在第4节回顾开放世界识别(OWR,被看作是OSR的自然延伸)。此外,第5节列出了常用的数据集、评估标准和算法比较,第6节强调了现有方法的局限性,并指出了该领域一些有前景的研究方向。最后,第7节给出了结论。

2、基本符号&相关定义

        本节简要回顾[21]中描述的形式化 OSR 问题。如[21]中所讨论的,远离已知数据的空间(包括KKCs和KUCs)通常被认为是开放空间 O,因此将该空间中的任何样本任意标注为KKC必然会带来风险,这被称为开放空间风险(open space risk):R_{O} 。由于UUCs在训练中是不可知的,因此通常很难对开放空间风险进行定量分析。另外,[21]给出了 R_{O} 的定性描述,其中它被形式化为开放空间 O 相对于整体测度空间 S_{O} 的相对测度,计算如下:

        式中,f 为可测识别函数。f(x) = 1表示KKCs中的某些类被识别,否则 f(x) = 0。在这种形式化下,开放空间中越多的样本被标记为KKCs,R_{O} 越大。

定义1:( [21]中定义的开放性openness ) 让 C_{TA} 、C_{TR} 和 C_{TE} 分别表示:待识别类的集合、训练中使用的类的集合和测试中使用的类的集合。则对应的识别任务的开放性O为:

其中,\left | \cdot \right | 为对应集合中的类别数。

       开放性越大,开放问题越多,当开放性为0时,这个任务是完全封闭的。注意,[21]没有明确给出 C_{TA} 、C_{TR} 和 C_{TE}  之间的关系。在大多数现有工作[22],[67],[90],[91]中,默认为保持 C_{TA}=C_{TR}\subseteq C_{TE}  关系。此外,作者在[82]中明确给出了以下关系:

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值