目录
0.摘要--(三要素:概率、紧凑(消减+阈值,当然也可以是其他))
4.1 纳入CAP模型的二元RBF SVM(将二类SVM加在SVM后)
0.摘要--(三要素:概率、紧凑(消减+阈值,当然也可以是其他))
计算机视觉中的现实世界任务经常涉及到开放集识别:在对世界不完全了解和许多未知输入的情况下进行多类识别。最近关于这个问题的工作提出了一个包含开放空间风险项的模型,以说明已知类的合理支持之外的空间。本文扩展了开放空间风险限制分类的一般想法,以适应多类环境下的非线性分类器。我们引入了一个新的开放集识别模型,称为紧凑衰减概率(CAP),其中类成员的概率随着点从已知数据向开放空间移动而减值(消减)。我们表明,CAP模型改善了多种算法的开放集识别。利用CAP的表述,我们继续描述了新颖的Weibull校准SVM(W-SVM)算法,该算法结合了统计极值理论的有用特性,用于分数校准和单类及二元支持向量机。我们的实验表明,与最先进的相同任务相比,W-SVM在开放集物体检测和OCR问题上的表现明显更好。
理解:
- 将开放空间风险扩展到多类核非线性。
- 引入紧凑衰减概率(CAP)
- 利用CAP引入SVM(W-SVM)算法
1.引言
在本刊最近的一篇论文中[27],我们提出了视觉学习的开放集识别问题,在测试过程中遇到的所有类在训练过程中并不为人所知。这是一个需要解决的困难问题。作为一个初步的解决方案,我们提出了一种叫做1-vs-Set机器的算法,它适用于开放集场景下的单类检测任务。从本质上讲,1-vs- Set机器通过解决一个双平面优化问题来管理未知的风险,从而产生一个线性分类器。检测是一个有用的操作(现在几乎每台数码相机都有一个自动人脸检测器),但在许多情况下,我们想识别哪些已知的类别(如果有的话)与输入图像有关。这可以实现无约束的光学字符识别(OCR)、照片或视频标签等应用,而不需要对输入进行约束。
在本文中,我们考虑多类开放集识别问题。多类开放集识别是计算机视觉中的一个基本问题。直观地说,我们对物体的分类是相对于一组固定的已知类别而言的,但我们识别的是我们在所有可能的输入集合中知道的东西,这些输入可能包括我们没有明确的类别或训练数据的东西。例如,当你看一张照片中的人脸时,你脑海中可能有一组你认识并想识别的人,但还有更多你不认识的人可能出现在图像中。你还必须忽略那些不属于人的东西的存在:狗、汽车、建筑、树木等等。知道我们不认识的东西是多类识别与多类分类的区别。改用Donald Rumsfeld著名的 "有已知的已知 "的说法[23],我们断言,识别必须考虑三类基本类别。1)已知类,即有明显标记的正面训练例子的类(也作为其他已知类的负面例子);2)已知的未知类,即有标记的负面例子,不一定归入有意义的类别;3)未知的未知类,即训练中未见过的类。传统的分类是用于多类计算机视觉问题的主流模型,它只考虑已知类。包括已知的未知类的结果是具有明确的 "其他类 "的模型,或者是用未分类的负数训练的检测器。专门为解决未知的未知类而设计的算法是开放集识别的重点--本文的主题。
我们对开放集识别的正式定义[27]引入了开放空间风险的概念,然后通过正则化,将其与经验风险结合起来,制定了一个开放集风险最小化问题。开放空间风险是正标记空间的相对度量,远离已知样本的空间的整体度量。然而,我们对 "远离已知样本 "的空间留有解释余地。此外,1-vs-Set机器严格来说是一个线性分类器。它通过将二元线性分类器的半空间替换为由两个平行平面限定的正区域来减少开放空间的风险。虽然所产生的正区域的度量比半空间小,但它仍然有无限的度量,而且只是降低了风险,因为开放空间风险的定义考虑了相对度量。本文试图将非线性核纳入一个解决方案,通过只对具有有限度量的集合进行正标,进一步限制开放空间风险。遵循支持向量机[29]的通常原则,1-vs-Set机在测试过程中只是给实例分配类标签。我们所希望的多类解决方案是一个能产生概率决策分数的配方。这允许我们评估多个分类器的输出,如果相关的概率超过阈值,就接受最高可信度的标签,如果不超过阈值,就作为未知数拒绝。这种表述应该是概率性的,因为在任何决策中总是存在一定的不确定性。特别是对于开放集识别来说,在面对未知的时候,存在着大量的不确定性。然而,在开放集的情况下,推导出一个概率学习公式并不像它最初看起来那样简单。
假设已知和未知的潜在类的集合是互斥的、可数的,因此可以标记为y 2 N。让x 2 X Rd是来自所有特征集合X的测量图像,其中x 2 K表示它来自已知类K X的特征空间。虽然整体联合概率Pðx; yÞ对于开放集识别来说是很好的定义,但所有y的集合对于算法来说是不(也不能)知道的,因此不可能对Pðx; yÞ进行生成模型的估计。一个有限的Pðx; yÞ的生成模型可以针对一个已知的类y,x 2 K进行估计,但在一般情况下,它的使用会受到限制。在未知的情况下,许多标准的概率论和统计学习工具不能直接应用。将联合分布与条件分布联系起来需要对类进行调节,而在未知类的情况下,我们无法正确地进行归一化。即使假设所有的类都是互斥的,未知的未知数也禁止使用作为贝叶斯定理基础的总概率法。此外,开放集识别不能仅仅使用已知类别上的最大后验概率(MAP)估计作为最佳解决方案。MAP估计需要完整的后验分布,这又需要考虑所有的类。仅仅考虑已知类别是不够的。为了解决这些问题,我们为开放集识别引入了一个新的概率类关联的正式模型,称为紧凑消减概率(CAP)。在CAP模型中,类成员的概率随着点从已知数据移动到开放空间而消减,这说明了未知的未知因素,而不需要明确地对它们进行建模。我们还介绍了一种叫做Weibull校准SVM(W-SVM)的新技术,它将CAP与统计学上的极值理论(EVT)结合起来,用于改进多类开放集的识别。EVT统计已经被证明可以为应用于计算机视觉中封闭集识别问题的SVM产生有根据的概率估计[24],因此我们在这项工作中重新审视了这种方法在开放集识别方面的应用。图1提供了该模型和算法的简要概述。我们的实验表明,加入CAP改进了现有的技术,而且W-SVM明显优于现有的方法,包括:常见的二类和多类SVM公式,多类SVM与通过阈值化Platt的sigmoid概率估计器提供的拒绝选项[22],多属性空间(MAS)[24],1对set机器[27],逻辑回归,和最近的邻居(NN)。为了评估,我们通过改变测试协议,为多类分类的经典数据集LETTER[12]和MNIST[21]注入了新的活力。令人惊讶的是,当被重新定义为开放集问题时,这些曾经被解决的数据集成为最近算法的重大挑战。我们还用Caltech 256[13]和ImageNet[7]的数据研究了一个困难的跨数据集物体检测任务。综上所述,本文的贡献在于。
- 从理论上提出了一个用于开放集识别的紧凑消减概率模型。
- 一种名为Weibull-calibrated SVM的新算法,它结合了CAP模型和概率估计的统计极值理论。
- 对CAP和W-SVM在检测和多类开放集场景下的实验评估。
2.背景和相关工作
考虑我们在文献[27]中提出的开放空间风险的定义,开放集识别的目标函数,包括多类的表述,必须最小化。假设f是一个可测量的识别函数,其中fyðxÞ>0表示对感兴趣的类y的识别,fyðxÞ¼0表示y未被识别,O是 "开放空间",So是一个半径为ro的球,包括所有已知的正面训练例子x 2 K以及开放空间O。类y的概率开放空间风险ROðfÞ可以定义为
ROðfÞ ¼ RO fyðxÞdx RSo fyðxÞdx ;
(1) 其中开放空间风险被认为是相对于正面标签(包括正面例子附近的空间)的整体空间而言的正面标签开放空间。然而,这个定义并没有告诉我们如何定义O。在本文中,我们具体研究了内核的O的定义,包括非线性函数。如何将公式(1)纳入模型中是一个问题。在统计学习中使用生成性模型和判别性模型之间一直存在着争论[2], [20],对每一种模型的价值都有争论。然而,开放集识别引入了一个新的问题