Object Detection with Discriminatively Trained Part-Based Models

Abstract

  • 我们描述了一种基于多尺度可变形零件模型混合的物体检测系统。 我们的系统能够表示高度可变的对象类,并在PASCAL对象检测挑战中实现最先进的结果。虽然可变形零件模型已经变得非常流行,但它们的价值还没有在诸如PASCAL数据集之类的困难基准上得到证明。我们的系统依赖于使用部分标记数据进行判别训练的新方法。我们将用于数据挖掘硬边否定示例的边缘敏感方法与我们称之为潜在SVM的形式相结合。潜在的SVM是根据潜在变量重新构建MI-SVM。潜在SVM是半凸的,一旦为正例指定了潜在信息,训练问题就变为凸。这导致迭代训练算法,其在修正正例的潜在值和优化潜在SVM目标函数之间交替。

Introduction

  • 在本文中,我们考虑从静态图像中的人或汽车等类别中检测和定位通用对象的问题。 这是一个难题,因为这些类别中的物体在外观上可能有很大差异。变化不仅来自光照和视点的变化,而且还来自于非刚性变形和形状内的类内可变性以及其他视觉特性。例如,人们穿着不同的衣服并采取各种姿势,而汽车有各种形状和颜色。
  • 我们描述了一种物体检测系统,它使用多尺度可变形零件模型的混合来表示高度可变的物体。使用判别程序训练这些模型,该程序仅需要一组图像中的对象的边界框。 由此产生的系统既高效又准确,在PASCAL VOC基准[11],[12],[13]和INRIA Person数据集[10]上实现了最先进的结果。
  • 我们的方法建立在图像结构框架[15],[20]的基础之上。 图形结构通过以可变形配置布置的一组部件来表示对象。每个部件捕获物体的局部外观特性,而可变形配置的特征在于某些部件对之间的弹簧状连接。
  • 可变形零件模型(如图形结构)为物体检测提供了一个优雅的框架。 然而,在实践中很难确定其价值。 在困难的数据集上,可变形零件模型通常比简单模型(如刚性模板[10]或特征包[44])更胜一筹。 我们工作的目标之一是解决这种性能差距。
  • 虽然可变形模型可以捕获外观的显着变化,但是单个可变形模型通常不足以表示富对象类别。 考虑在照片中模拟自行车外观的问题。人们制造不同类型的自行车并以各种姿势观看它们这里描述的系统使用混合模型来处理这些更重要的变化。
  • 我们最终对使用“视觉语法”建模对象感兴趣。基于语法的模型(例如,[16],[24],[45])通过使用变量分层结构表示对象来概括可变形零件模型。 基于语法的模型中的每个部分都可以直接定义或者根据其他部分定义。 此外,基于语法的模型允许并明确地模拟结构变化。 这些模型还提供了一个在不同对象类之间共享信息和计算的自然框架。 例如,不同的模型可能共享可重用的部分。
  • 虽然基于语法的模型是我们的最终目标,但我们采用了一种研究方法,在此基础上我们逐步向更丰富的模型迈进,同时保持高水平的表现。 通过丰富模型提高性能是非常困难的。 简单模型在计算机视觉,语音识别,机器翻译和信息检索方面的历史表现优于复杂模型。例如,直到最近,基于n-gram语言模型的语音识别和机器翻译系统的表现优于基于语法和短语结构的系统。
  • 简单模型在实践中表现更好的一个原因是丰富的模型经常在训练中遇到困难。 对于物体检测,可以使用支持向量机(SVM)等判别方法轻松训练刚性模板和特征包模型。 更富有的模型更难训练,特别是因为它们经常利用潜在的信息。
  • 虑从仅使用感兴趣对象周围的边界框标记的图像训练基于部件的模型的问题。 由于零件位置未标记,因此在训练期间必须将它们视为潜在(隐藏)变量。 更完整的标签可能会支持更好的培训,但如果标签使用次优部分,它也可能导致较差的培训。 自动零件标签有可能通过自动查找有效零件来实现更好的性能。 更精细的标签也是耗时且昂贵的。
  • Dalal-Triggs检测器[10]赢得了2006年PASCAL物体检测挑战,在定向梯度(HOG)特征的直方图上使用单个滤波器来表示对象类别。 该探测器使用滑动窗口方法,其中滤波器应用于图像的所有位置和比例。 我们可以将探测器视为一种分类器,它将图像,图像中的位置和比例作为输入。分类器确定在给定位置和比例下是否存在目标类别的实例。 由于模型是一个简单的滤波器,我们可以将得分计算为,其中是滤波器,x是具有指定位置和比例的图像,是特征向量。 Dalal-Triggs探测器的一项重大创新是构建特别有效的功能。
  • 我们的第一项创新涉及使用由“根”滤波器(类似于Dalal-Triggs滤波器)定义的星形结构的基于部件的模型以及一组部件滤波器和变形模型来丰富Dalal-Triggs模型。 在图像中特定位置和比例下我们的一个恒星模型的得分是给定位置处的根过滤器的得分加上该部分的最大部分,部分过量部分的总和。 位置减去变形成本,测量零件与其理想位置相对于根的偏差。 根和部分过滤器得分均由过滤器(一组权重)与从输入图像计算的特征金字塔的子窗口之间的点积定义。 图1显示了人类的星型模型。在我们的模型中,零件过滤器捕获的特征是空间分辨率的两倍,相对于根过滤器捕获的特征。 通过这种方式,我们在多个尺度上模拟视觉外观。
  • 为了使用部分标记的数据训练模型,我们使用MI-SVM的潜变量公式[3],我们称之为潜在SVM(LSVM)。 在潜在的SVM中,每个示例x都通过以下形式的函数进行评分:
  • 这里是模型参数的矢量,z是潜值,是特征向量。 在我们的一个星型模型的情况下,是根过滤器,零件过滤器和变形成本权重的串联,z是对象配置的规范,并且是来自特征金字塔的子窗口的串联和部分变形特征。我们注意到(1)可以处理非常一般形式的潜在信息。 例如,z可以在丰富的视觉语法下指定派生。
  • 我们的第二类模型通过混合星形模型表示对象类别。 特定位置和比例的混合模型的得分是给定位置处该组件模型的得分的最大值。 在这种情况下,潜在信息z指定组件标签和该组件的配置。 图2显示了自行车类别的混合模型。
  • 为了使用判别训练获得高性能,使用大型训练集通常很重要。 在物体检测的情况下,训练问题是高度不平衡的,因为背景远远大于物体。 这促使搜索背景数据以找到相对少量的潜在误报或硬反面示例的过程。
  • Dalal和Triggs [10]采用了一种硬性负面例子的数据挖掘方法,但至少可以追溯到Sung和Poggio [38]以及Rowley等人使用的自举方法。[35]。 在这里,我们分析了SVM和LSVM训练的数据挖掘算法。 我们证明了数据挖掘方法可以收敛到根据整个训练集定义的最优模型。
  • 我们的对象模型由对特征金字塔的子窗口进行评分的过滤器定义。 我们已经研究了类似于[10]中的HOG特征的特征集,并且发现了与原始特征集一样的低维特征。 通过对HOG特征进行主成分分析(PCA),可以显着降低特征向量的维数,而不会出现明显的信息丢失。 此外,通过检查主要的特征向量,我们发现导致低维特征的“分析”版本的结构,这些特征易于解释并且可以有效地计算。
  • 我们还考虑了PASCAL对象检测挑战和类似数据集中出现的一些特定问题。 我们展示了如何使用对象假设中的部件位置来预测对象的边界框。 这是通过使用最小二乘回归训练模型特定预测器来完成的。 我们还演示了一种聚合多个物体探测器输出的简单方法。 基本思想是某些类别的对象提供或反对同一图像中其他类别的对象的证据。 我们通过训练一个特定类别的分类器来利用这个想法,该分类器使用其原始分数和来自每个其他类别的最高得分检测来重新分析该类别的每个检测。

Related Work

  • 在用于物体检测的各种类型的可变形模型上有大量工作,包括几种可变形模板模型和各种基于部件的模型。在来自[18],[42]的星座模型中,部分被约束在由兴趣点算子确定的稀疏位置集中,并且它们的几何排列由高斯分布捕获。相比之下,图形结构模型[15],[20]定义了一个匹配问题,其中零件在一组密集的位置具有单独的匹配成本,并且它们的几何排列由连接成对零件的一组“弹簧”捕获。 来自[2]的零件模型是相似的,但它明确地考虑了重叠零件的外观模型如何相互作用。
  • 我们的模型主要基于[15],[20]中的图像结构框架。 我们在图像中使用一组密集的可能位置和比例,并定义用于在每个位置放置滤镜的分数。 过滤器的几何配置由一组变形成本(“弹簧”)捕获,这些变形成本将每个部件过滤器连接到根过滤器,从而形成星形结构的图像结构模型。 请注意,我们不会模拟重叠部分之间的交互。 虽然我们可能会从这种交互建模中受益,但在使用经过判别程序训练的模型时,这似乎不是问题,并且它显着简化了模型与图像匹配的问题。
  • 新的局部和半局部特征的引入在提高物体识别方法的性能方面发挥了重要作用。 这些特征通常对于照明变化和小变形是不变的。 许多最近的方法使用类似小波的特征[30],[41]或局部标准化的梯度直方图[10],[29]。 其他方法,如[5],从训练图像中学习局部结构的字典。 在我们的工作中,我们使用[10]中的梯度直方图(HOG)特征作为起点,并引入一种变化,减少特征尺寸而不损失性能。 如[26]中所述,我们使用PCA来发现低维特征,但我们注意到我们获得的特征向量具有清晰的结构,从而产生一组新的“分析”特征。 这消除了在计算密集特征映射时执行昂贵的投影步骤的需要。
  • 2D可变形模型无法很好地捕获形状和外观的显着变化,例如由极端视点变化引起的变化。 方面图[31]是用于捕捉由视点变化引起的重大变化的经典形式。 混合模型提供了一种更简单的替代方法。 例如,通常使用多个模板来编码面部和车辆的正面和侧面视图[36]。 混合模型也被用于捕捉外观变化的其他方面,例如当对象类别中存在多个自然子类时[5]。
  • 将可变形模型与图像匹配是一个困难的优化问题。本地搜索方法需要在正确的解决方案[2]、[7]、[43]附近进行初始化。为了保证全局最优匹配,需要更积极的搜索。对于基于零件的模型,一种流行的方法是将零件位置限制在兴趣点探测器返回的一小组可能的位置[1]、[18]、[42]。树(和星)结构图形结构模型[9]、[15]、[19]允许使用动态编程和广义距离变换来有效搜索图像中所有可能的对象配置,而不限制每个部分的可能位置。我们使用这些技术来匹配我们的模型和图像。
  • 基于部件的可变形模型通过每个部件的外观和捕获部件之间的空间关系的几何模型来参数化。 对于生成模型,可以使用最大似然估计来学习模型参数。 在完全监督的环境中,训练图像标有部分位置,模型通常可以使用简单的方法学习[9],[15]。 在弱监督设置中,训练图像可能不指定部件的位置。 在这种情况下,可以使用EM [2],[18],[42]同时估计零件位置并学习模型参数。
  • 判别训练方法选择模型参数,以最小化检测算法对一组训练图像的错误。 这些方法直接优化了正面和负面例子之间的决策边界。 我们认为这是使用辨别方法训练的简单模型成功的一个原因,例如Viola-Jones [41]和Dalal-Triggs [10]探测器。 尽管存在策略[4],[23],[32],[34],但是有区别地训练基于部分的模型更加困难。
  • 潜在的SVM与隐藏的CRF有关[32]。 然而,在一个潜在的SVM中,我们最大化潜在的部分位置,而不是边缘化它们,我们在训练中使用铰链损失而不是记录丢失。 这导致用于训练的有效坐标下降式算法,以及允许用非常大的数据集学习的数据挖掘算法。 潜在的SVM可以被视为一种基于能量的模型[27]。
  • 潜在的SVM相当于[3]中多实例学习(MIL)的MI-SVM公式,但我们发现潜在变量公式对于我们感兴趣的问题更为自然.以前使用不同的MIL框架进行训练 [40]中具有弱标记数据的物体探测器。
  • 我们在训练期间用于数据挖掘硬实例的方法与SVM的工作集方法有关。这里描述的方法需要相对较少的遍历整套训练示例,并且特别适合于使用非常大的数据集进行训练,其中只有一小部分这些例子可以放在RAM中。
  • 近年来,用于物体检测和识别的上下文的使用受到越来越多的关注。 一些方法(例如,[39])使用低级整体图像特征来定义可能的对象假设。 [22]中的方法使用粗略但语义丰富的场景表示,包括其3D几何,使用各种技术估计。 在这里,我们使用在图像中运行各种对象检测器的结果来定义图像的上下文。 这个想法与[33]有关,其中CRF用于捕获对象的共现,尽管我们使用一种非常不同的方法来捕获这些信息。

Models

  • 我们所有的模型都涉及应用于密集特征映射的线性滤波器。 特征图是一个数组,其条目是从图像中密集的位置网格计算的d维特征向量。 直观地,每个特征向量描述局部图像补丁。 在实践中,我们使用[10]中HOG特征的变体,但这里描述的框架独立于特定的特征选择。滤波器是由d维权向量阵列定义的矩形模板。 在特征映射G中位置处的滤波器F的响应或得分是滤波器的“点积”和具有位于的左上角的特征映射的子窗口:
  • 我们想在图像中定义不同位置和比例的分数。 这是使用特征金字塔完成的,该特征金字塔指定固定范围内有限数量的比例的特征图。 在实践中,我们通过重复平滑和子采样计算标准图像金字塔来计算特征金字塔,然后从图像金字塔的每个级别计算特征图。 图3说明了这种结构。
  • 特征金字塔中的比例采样由定义八度音程中的级别数的参数确定。 也就是说,我们需要在金字塔中向下移动以达到以另一个分辨率的两倍分辨率计算的要素图的等级数。 在实践中,我们在训练中使用,在测试时使用。 对于我们的模型获得高性能,精确的秤速度采样非常重要。[10]中的系统使用单个过滤器来定义对象模型。 该系统通过计算HOG特征金字塔的每个位置和比例处的滤波器的分数并对分数进行阈值处理来检测对象。
  • 我们的星型模型由粗根过滤器定义,粗过滤器大致覆盖整个对象,而较高分辨率的部件过滤器则覆盖对象的较小部分。 图3示出了在特征金字塔中的这种模型的实例化。 根过滤器位置定义了一个检测窗口(有助于过滤器覆盖的特征图区域的像素)。 零件过滤器在金字塔中放置级别,因此该级别的要素的计算结果是根过滤器级别中要素的两倍。
  • 我们发现使用更高分辨率的特征来定义零件滤波器对于获得高识别性能至关重要。 通过这种方法,部件过滤器捕获更精细的分辨率功能,与根过滤器捕获的功能相比,这些功能的本地化程度更高。 考虑为面部构建模型。 根过滤器可以捕获粗分辨率边缘,例如面部边界,而部分过滤器可以捕获细节,如眼睛,鼻子和嘴巴。

Latent SVM

Training Models

Features

Postprocessing

Discussion

  • 我们描述了一种基于多尺度可变形零件模型混合的物体检测系统。 我们的系统在很大程度上依赖于利用潜在信息进行分类器的判别训练的新方法。 它还在很大程度上依赖于将可变形模型与图像匹配的有效方法。 由此产生的系统既高效又准确,从而在困难的数据集上产生最先进的结果。
  • 我们的模型已经能够表示高度可变的对象类,但我们希望转向更丰富的模型。 这里描述的框架允许探索额外的潜在结构。 例如,可以考虑更深的部件层次结构(带部件的部件)或具有许多部件的混合模型。 将来,我们希望构建基于语法的模型来表示具有可变层次结构的对象。 这些模型应允许零件级别的混合模型,并允许零件的可重复使用性,包括对象的不同组件和不同对象模型。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值