0.摘要
1.到目前为止,在计算机视觉中,几乎所有基于机器学习的识别算法的实验评估都采用了封闭集识别的形式,即在训练时已知所有测试类。对于视觉应用来说,一个更现实的场景是开放集识别,在训练时存在不完整的世界知识,在测试时未知的类可以提交给算法。本文探讨了开集识别的性质,并将其定义形式化为约束最小化问题。现有算法不能很好地解决开放集识别问题,因为它需要很强的泛化能力。作为解决方案的一个步骤,我们引入了一个新的1-vs-set机器,它雕刻一个决策空间的边缘距离的1-class或binary svm的线性核。这种方法适用于计算机视觉的几个不同的应用,其中开放集识别是一个具有挑战性的问题,包括对象识别和人脸验证。我们在这项工作同时考虑了这两个问题,大规模跨数据集实验在Caltech 256 and ImageNet sets上执行,以及LFW数据集上执行人脸匹配实验。与现有1-class and binary SVMs相比,实验证明了在相同的任务上,提出方法的有效性。
摘要解读:
- 陈述背景,指明为什么要进行开放集识别。
- 将开放集识别定义为经验风险+开放空间风险最小化问题
- 提出一个解决方案1-vs-set机器,并且在对象识别和人脸验证两个领域上,验证了提出方法的有效性
1.引言
识别和分类是计算机视觉中的常见术语。有什么区别吗?在分类中,我们假设存在一组特定的类,我们必须在这些类之间加以区别。在识别方面,我们假设有一些类我们可以在更大的空间里识别我们不识别的东西。激发我们工作的一个问题是:一般的物体识别问题是什么?当然,这个问题是《vision》的中心主题。根据Duin和Pekalska[1]的说法,一个人应该如何获得多阶层的认可仍然是一个开放的问题。它应该作为一系列的二进制分类来执行,还是通过检测来执行,在那里搜索每一个可能的类?当某些类被错误地采样、完全没有采样或未定义时,会发生什么。一般术语识别(以及本文所考虑的特定术语对象识别和人脸验证)表明,该表示可以处理不同的模式,通常是通过区分特征来定义的。它还建议,要识别的模式将在一般设置中,在视觉上与许多类混合。然而,对于某些问题,我们不需要也往往不可能掌握所有可能的类的知识(见图1)。例如,在生物学家的识别应用中,可能会对某一种鱼感兴趣。然而,分类器必须将相关设置中所有其他可能的对象的集合视为潜在的否定。类似地,面向安全的人脸匹配的验证问题将感兴趣的目标限制在一个声明的身份,而将所有其他可能的人作为潜在的冒名顶替者。在处理一般的对象识别,在无数的未知对象中有一个有限的已知对象集,组合和配置,标记一些新的,新奇的,或未知的应该总是一个有效的结果。这就导致了所谓的开放集识别,与那些做出封闭世界假设或使用封闭集计算的系统相比。
对于许多视觉问题,研究人员假设我们有来自所有类别的例子,并随后以二进制方式将整个空间标记为正(þ1)或负(1)。与此相反,一个开放集场景在测试中拥有训练中没有的类,而不仅仅是实例。假设我们能收集到正面类的例子是有点合理的,但是 "负面 "的数量和种类却没有很好的模型。重要的区别在于,用Zhou和Huang的话说[2](从托尔斯泰那里得到了一点启发),"所有的正面例子都是一样的;每个负面例子都有其负面的一面"。此外,即使所有的负面类都是已知的,从实用的角度来看,我们一般不可能有足够多的正面例子来平衡所需的负面类的采样。在任何一种情况下,我们都试图将问题从封闭世界的假设中概括为一个开放集。目标检测也许是最常见的视觉问题,但它并不存在于特定的封闭设置中。检测的目的是定位图像中感兴趣的目标。因为阴性检测不是感兴趣的。这个问题是开放的,而不是封闭的。流行的检测方法用一个相对适度的正例子采样和一个非常大的(通常是数以百万计的)来自数千个不同类的负例子采样来训练二进制分类器。当有可能对负类进行良好的采样时,这是一种合适的策略,但由于对可能的负类的了解非常不完整,在许多情况下它可能会导致不准确。此外,我们通常会留下一个负的集合偏差[3]这是由我们所知道的大量的班级抽样所定义的。从某种意义上说,当我们对可能类的领域有非常有限的知识时,检测就成为开放集识别的一种特殊情况,只有一类是我们感兴趣的。
图1描述了几种常见的开放程度不同的视觉问题。直觉上,一个只有单一兴趣类别的问题比一个有许多兴趣类别的问题要不那么公开。然而,我们可能遇到的未知类的数量也应该起到关键作用。让我们通过考虑要识别的目标类的数量、训练中使用的类的数量和测试中使用的类的数量来形式化一个特定问题或数据空间的开放性。
上面的公式产生了百分之百的开放性(值在0到100%之间),其中百分之百代表一个完全封闭的问题,值越大,问题就越开放。对于固定数量的培训课程,增加测试类的数量会增加开放性,就像增加需要识别的目标类的数量一样。在培训过程中,增加课程的可用性会降低开放性。通过对(1)取平方根,开放性随着类数量的增加而逐渐增长(如果是线性的,那么在这个公式中,开放性会迅速向只有中等数量的类的1移动,这是没有意义的)。表1显示了我们工作中考虑的不同例子的开放性值,以及图1中问题谱系中的其他例子的开放性值。每个类的训练实例的数量对给定分类器的准确性很重要,但不是类的属性问题本身,因此不是这个定义的一部分。对于几乎任何不受约束的现实问题,测试类的数量可以随着开放性接近100%而快速增长。
开放集识别问题的潜在解决方案必须对未知类和已知类进行优化。与典型的多类分类的一个重要区别是,一般的开集多类解决方案必须能够将输入标记为已知的类之一或未知的类。仅仅返回最有可能的类是不够的:分类器还必须支持拒绝。我们在这里提供的第一个见解是,支持向量机(SVMs)定义了半空间,并将分类远离任何训练样本的数据。虽然我们需要支持强泛化的解决方案,但对于与给定标签相关的样本与已知数据的距离应该有一个限制。根据训练数据衡量的经验风险,是经典定义和优化的风险。然而,对于开放集识别来说,考虑如何扩展模型以捕获不充分的泛化或专门化带来的未知风险是至关重要的。这与二元分类器方法不同,二元分类器方法试图最大化边际,边际是正决策边界和负决策边界之间的差距。虽然最大裕度对于闭集问题非常有效,但这种方法通常会导致对开放集问题的过度泛化。例如,在图2中,包含未知数的空间(?)可能会被标记为狗,因为没有什么限制正向标签传播,如果决定边界存在于鸟、青蛙和狗之间。支持向量机只考虑已知的负性,找到一个平面来分离正类和负类。人们可能会把最大裕度方法看作是假设所有的未知点都有相等的可能是正的或负的,基于最近的点,即使这个点非常远。对于一个来自未知类的样本,比如浣熊,这是一个错误的假设。我们认为,要想解决开放集识别问题,需要在训练样本的合理支持之外,最小化代表学习识别函数f的开放空间。
这项工作的主要目标是对监督学习环境下的开放集识别有一个彻底的了解。我们构建了这个问题的第一个形式化,并提供了一个经验案例,扩大了现有的具有线性核的1类和2类SVM来解决开放集识别问题。由此产生的1-vs-set机器是朝向解决方案的一步。具体来说,我们重新审视了1类和二元SVM在开放集识别问题上的思路,并通过一种新的学习技术解决了泛化/专业化问题。我们没有把泛化/专业化问题作为SVM训练函数的误差最小化来处理,而是引入了一个开放空间风险的概念,然后将训练数据上的经验风险与开放空间的风险模型相结合,使误差函数最小化。已知类训练数据代表1-vs-set的 "Set"。为了提高整个开放集的识别误差,我们的1-vs-set公式通过从基础SVM获得决策边界A周围的核心余量来平衡未知类,通过增加另一个平面来专门化所产生的半空间,然后概括或专门化这两个平面(如图2所示)来优化经验和开放空间风险。这个过程使用开放集训练数据和风险模型来定义一个新的 "开放集边缘"。第二个平面允许1-vs-set机器避免过度归纳,以免对图2中的浣熊进行错误分类。整体的优化也可以调整原来相对于A的余量,以减少开放空间的风险,这可以避免像猫头鹰这样的负面因素。
我们将本文的其余部分组织如下:首先,我们将在第2节中形式化开放集识别问题。在第3节中,我们将介绍开放集识别和机器学习的相关工作,包括视觉和模式识别。在第4节中,我们形式化了我们的边际泛化和专业化的理论模型,以发展1-vs-set机器。我们将该模型与常用的SVM模型进行比较,用于对象识别和人脸验证问题,并在第5节给出结果。我们将在第6节中总结和讨论未来工作的一些想法。
解读:
- 识别和分类的区别是,识别应该可以发现未知类(识别已知类和未知类),而分类只需要区分已知类(分类已知样本和未知样本)。
- 引出一种开放集识别类型,即正类只有一类,负类无穷多类,部分未知,部分已知。如目标检测
- 定义开放性,如公式1,与目标类的数目、未知类的数目(testing-training)正相关。
- 说明现有分类器在面对开放集识别时的过度泛化问题,并给出开放集识别的一个方案,即在SVM的决策边界两边进行进一步的限制,使得与训练样本在一定距离内的空间能够划分为训练类。
- 引出后文开放空间风险的概念,并将开放集识别问题形式化为经验风险与开放空间的风险最小化问题。并且通过扩展现有ocsvm,bisvm在开放集识别中泛化和专门化的方案,来解决这个问题。
2.开放集识别形式化解读
假设来自不同类别的物体图像被处理成d维表示,即我们测量特征向量x属于IR^d.我们假设我们有无数个由IN标记的类别y,并且存在一个概率度量将x映射到y。为了简单起见,我们将关注一个单一类别的开放集识别,在不失一般性的前提下,我们假设这个感兴趣的类别的标签是1。此外,我们假设一个样本既可以是正的,也可以是负的,但不能同时是两个(没有嵌套类)。让P代表正的输入空间,即感兴趣的类是最可能的类的输入。让f 是某类P的可测量的识别函数,将测量值x映射到标签y。
更确切地说,考虑一个损失函数L,它定义了对一个向量x的错误标签的惩罚。我们的总体目标是找到一个函数f,使我们的期望误差最小化。更准确地说,考虑一个损失函数L定义错误标签的惩罚一个向量x。
不幸的是,由于我们没有得到联合分布P(x,y),我们不能直接最小化(3),问题在基本表述中是无法解决的。在这一点上,传统的方法是改变问题,只使用我们知道的东西。正如Smola在[5,第1.2.1节]中指出的,"唯一的出路是用经验概率密度函数来近似P(x,y)"。因此,理想风险的最小化被转换为经验风险的最小化。不幸的是,即使是最小化经验风险,在一般情况下也是不可行的[5], [6]。因此,先前的工作([6],[5],[7]等)利用了其他知识,如假设标签空间至少是局部平滑的,并对经验风险最小化进行正则化,使其具有良好的构成。例如,假设f来自一个特定的再现核希尔伯特空间(RKHS),H是一种增加平滑性约束的方式,然后在f 2 H上最小化经验风险(有一个正则化项)是很好的摆设。这就引出了一个问题,即如果近似理想风险表述的 "唯一方式 "是经验风险,或者当我们从(3)的理想风险最小化到我们的开放集识别表述时,是否