Selective Search for Object Recognition

Abstract

  • 本文讨论了生成用于对象识别的可能对象位置的问题。我们介绍了选择性搜索,它结合了详尽搜索和分割的优势。与分割一样,我们使用图像结构来指导我们的采样过程。与穷举搜索一样,我们的目标是捕获所有可能的对象位置。我们不是使用单一技术来生成可能的对象位置,而是使搜索多样化并使用各种互补图像分区来处理尽可能多的图像条件。我们的选择性搜索产生了一小组数据驱动,类独立,高质量的位置,在10,097个位置产生99%的召回率和0.879的平均最佳重叠。与穷举搜索相比,减少的位置数量使得能够使用更强的机器学习技术和用于对象识别的更强的外观模型。在本文中,我们展示了我们的选择性搜索能够使用强大的Bag-of-Words模型进行识别。

Introduction

  • 很长一段时间,在识别物体之前,人们试图描绘物体。 这产生了分割,其目的在于通过通用算法对图像进行独特的分割,其中对于图像中的所有对象轮廓存在一个部分。在过去几年中,对该主题的研究取得了巨大进展。但图像本质上是分层的, 因此,图像的性质和对象类别的不同用途都是分层的。
  • 除此之外,分割应该是分层的,使用单一策略进行分割的通用解决方案可能根本不存在。最后,还有一个更基本的问题。 具有非常不同特征的区域,例如毛衣上的脸,只有在确定手头的物体是人之后才能组合成一个物体。 因此,在没有事先认识的情况下,很难确定面部和毛衣是一个物体的一部分。
  • 然而,详尽的搜索本身有几个缺点。 搜索每个可能的位置在计算上是不可行的。 必须通过使用常规网格,固定比例和固定宽高比来缩小搜索空间。 在大多数情况下,访问的地点数量仍然很大,因此需要施加其他限制。分类器简化,外观模型需要快速。 此外,均匀采样产生许多盒子,很明显它们不支持物体。 而不是使用穷举搜索盲目地采样位置,一个关键问题是:我们可以通过数据驱动分析来引导采样吗?
  • 在本文中,我们的目标是结合分割和穷举搜索的最佳直觉,并提出数据驱动的选择性搜索。受自下而上分割的启发,我们的目标是利用图像的结构来生成对象位置。 受到详尽搜索的启发,我们的目标是捕获所有可能的对象位置。 因此,我们的目标是使采样技术多样化,以尽可能多地考虑图像条件,而不是使用单一采样技术。具体而言,我们使用基于数据的分组策略,通过使用各种互补分组标准和具有不同不变性的各种互补色空间来增加多样性。通过组合这些互补分区的位置来获得该组位置。 我们的目标是生成一个独立于类的数据驱动的选择性搜索策略,该策略可生成一小组高质量的对象位置。
  • 我们选择性搜索的应用领域是对象识别。 因此,我们评估了最常用的数据集,即Pascal VOC检测挑战,它由20个对象类组成。 此数据集的大小会为我们的选择性搜索产生计算约束。 此外,使用该数据集意味着位置的质量主要根据边界框来评估。 但是,我们的选择性搜索也适用于地区,也适用于“草”等概念。

Related Work

  • 由于物体可以位于图像中的任何位置和比例,因此在任何地方搜索都是很自然的。然而,视觉搜索空间巨大,使得详尽的搜索在计算上非常昂贵。因此,大多数这些滑动窗口技术使用粗略搜索网格和固定宽高比,使用弱分类器和经济图像特征(例如HOG)。 该方法通常用作级联分类器中的预选步骤。
  • 与滑动窗技术相关的是Felzenszwalb等人非常成功的基于部件的对象定位方法。 他们的方法还使用线性SVM和HOG特征执行穷举搜索。 但是,它们搜索对象和对象部分,它们的组合产生令人印象深刻的对象检测性能。
  • 兰伯特等人。 建议使用外观模型来指导搜索。 这既减轻了使用常规网格,固定比例和固定纵横比的限制,同时减少了访问的位置数量。 这是通过使用分支定界技术直接在图像内搜索最佳窗口来完成的。 虽然它们为线性分类器获得了令人印象深刻的结果,[1]发现对于非线性分类器,实际上该方法仍然可以访问每个图像100,000个窗口。
  • 我们建议选择性搜索,而不是盲目详尽的搜索或分支定界搜索。 我们使用底层图像结构来生成对象位置。 与所讨论的方法相反,这产生了完全独立于类的位置集。 此外,因为我们不使用固定的宽高比,我们的方法不仅限于对象,而且应该能够找到像“草”和“沙”这样的东西。更重要的是,它释放了计算能力,可用于更强大的机器学习技术和更强大的外观模型。
  • 如在分割中常见的那样,两种方法都依赖于单个强算法来识别好区域。 他们通过使用许多随机初始化的前景和背景种子获得各种位置。 相反,我们通过使用不同的分组标准和不同的表示来明确地处理各种图像条件。这意味着更低的计算投资,因为我们不必投资于单一的最佳分割策略,例如使用优秀但昂贵的轮廓检测器[3]。
  • 顾等人解决了基于零件仔细分割和识别物体的问题。 他们首先使用基于Arbelaez等人的分组方法生成一组部分假设。每个部分假设都由外观和形状特征描述。 然后,通过使用其部件识别并仔细描绘对象,从而获得用于形状识别的良好结果。 在他们的工作中,细分是分层的,并在所有尺度上产生细分。 但是,他们使用单一分组策略,其发现零件或对象的能力未被评估。 在这项工作中,我们使用多种互补策略来处理尽可能多的图像条件。 我们在评估中包含使用[3]生成的位置。
  • Alexe等。 [2]通过提议搜索任何对象,解决穷举搜索的大采样空间的问题,而与其类无关。 在他们的方法中,他们在那些具有良好定义形状的物体的物体窗口上训练分类器(与“草”和“沙子”之类的东西相反)。 然后,他们不是进行完整的详尽搜索,而是随机抽样他们应用其分类器的方框。 具有最高“对象性”度量的框用作一组对象假设。 然后使用该集合来大大减少由类特定对象检测器评估的窗口数量。 我们将我们的方法与他们的工作进行比较。
  • 另一种策略是使用Bag-of-Words模型的视觉词来预测对象位置。 Vedaldi等人使用跳跃窗口,其中学习各个视觉词与对象位置之间的关系以预测新图像中的对象位置。 Maji和Malik将这些关系中的多个结合起来,使用霍夫变换预测物体位置,之后他们随机采样靠近霍夫最大值的窗口。 与学习相反,我们使用图像结构来采样一组与类无关的对象假设。
  • 总而言之,我们的新颖性如下。 我们使用分段作为选择性搜索,而不是穷举搜索,产生一小组独立于类的对象位置。 与[4,9]的分割相反,我们使用各种策略来处理尽可能多的图像条件,而不是关注最佳分割算法,从而严重降低计算成本,同时可能捕获更多对象 准确。 我们使用自下而上的分组程序来生成良好的对象位置,而不是在随机抽样的方框上学习对象度量。

Selective Search

  • 选择性搜索算法受以下设计考虑因素的影响:
  1. 捕获所有比例。 对象可以在图像中以任何比例出现。 此外,一些对象与其他对象的边界不太清晰。 因此,在选择性搜索中,必须考虑所有对象尺度,如图2所示。这通过使用分层算法最自然地实现。
  2.  多样化。将区域组合在一起没有单一的最佳策略。 如前面图1所示,区域可能形成一个对象,因为只有颜色,只有纹理,或者因为部分是封闭的。 此外,诸如阴影和光的颜色之类的照明条件可能影响区域如何形成物体。 因此,在大多数情况下,我们希望采用多种策略来处理所有案例,而不是单一的策略。
  3. 快速计算。 选择性搜索的目标是产生一组可能的对象位置以供在实际的对象识别框架中使用。 这个集合的创建不应该成为计算瓶颈,因此我们的算法应该相当快。
  • 我们采用分层分组算法来形成选择性搜索的基础。 自下而上分组是一种流行的分割方法[6,13],因此我们将其用于选择性搜索。 因为分组过程本身是分层的,所以我们可以通过继续分组过程自然地生成所有尺度的位置,直到整个图像变成单个区域。 这满足了捕获所有尺度的条件。由于区域可以产生比像素更丰富的信息,我们希望尽可能使用基于区域的功能。 为了获得一组理想情况下不跨越多个物体的小起始区域,我们使用Felzenszwalb和Huttenlocher [13]的快速方法,发现它非常适合这种目的。
  • 我们的分组程序现在如下工作。 我们首先使用[13]来创建初始区域。 然后我们使用贪婪算法迭代地将区域组合在一起:首先计算所有相邻区域之间的相似性。 将两个最相似的区域组合在一起,并且在得到的区域与其邻居之间计算新的相似性。 重复对最相似区域进行分组的过程,直到整个图像变为单个区域。 算法1详细介绍了一般方法。
  • 于区域ri和rj之间的相似性s(ri,rj),我们想要在它们快速计算的约束下的各种补充度量。 实际上,这意味着相似性应该基于可以通过层次结构传播的特征,即,当将区域ri和rj合并到rt中时,区域rt的特征需要从ri和rj的特征计算而不访问图像像素。
  • 我们想要考虑不同的场景和照明条件。 因此,我们在具有一系列不变性属性的各种颜色空间中执行分层分组算法。具体而言,我们以下颜色空间具有不断增加的不变性。(1)RGB(2)强度(灰度图像)I(3)Lab(4)标准化RGB的rg通道加强度表示为rgI(5)HSV(6)标准化RGB表示为 rgb(7)C 是强度被分割出来的对手色空间,最后是(8)来自HSV的色调通道H。当然,对于黑白图像,颜色空间的变化对算法的最终结果几乎没有影响。在本文中,我们总是在整个算法中使用单个颜色空间,这意味着[13]的初始分组算法和我们后续的分组算法都在此颜色空间中执行。
  • 我们定义了四个互补的、快速计算相似性度量。这些度量都在范围[0,1]内,这有助于这些度量的组合。
  • 第三种多样化策略是改变互补的起始区域。 据我们所知,[13]的方法是最快,公开可用的算法,可以产生高质量的起始位置。 我们无法找到具有类似计算效率的任何其他算法,因此我们在本文中仅使用这种分段。 但请注意,通过改变颜色空间(已经)获得了不同的起始区域,每个颜色空间具有不同的不变性。 另外,我们在[13]中改变阈值参数k。
  • 在本文中,我们结合了分层分组算法的几种变体的对象假设。 理想情况下,我们希望以这样一种方式对对象假设进行排序,使得最有可能成为对象的位置成为第一个。这使得人们能够在所得对象假设集的质量和数量之间找到良好的折衷,这取决于后续特征提取和分类方法的计算效率。

Object Recognition using Selective Search

  • 两种类型的特征在物体识别中占主导地位:定向梯度直方图(HOG)[8]和词袋[7,27]。 HOG已被证明与Felzenszwalb等人的部分模型相结合是成功的。[12]。 然而,由于他们使用详尽的搜索,HOG功能与线性分类器相结合是从计算角度来看唯一可行的选择。 相比之下,我们的选择性搜索可以使用更昂贵且可能更强大的功能。 因此,我们使用bag-ofwords进行物体识别[16,17,34]。 然而,我们使用比[16,17,34]更强大(和昂贵)的实现,采用各种颜色-SIFT描述符[32]和一个空间金字塔划分[18]。
  • 具体来说,我们在单个尺度上对每个像素采样描述符(σ= 1.2)。 使用[32]中的软件,我们提取SIFT [21]和两种颜色SIFT,它们被发现对检测图像结构最敏感,扩展的OpponentSIFT [31]和RGBSIFT [32]。 我们使用大小为4,000的可视码本和使用1x1,2x2,3x3的4级空间金字塔。 和4x4师。 这使得总特征向量长度为360,000。 在图像分类中,已经使用了这种尺寸的特征[25,37]。 因为空间金字塔导致比构成HOG描述符的单元格更粗略的空间细分,所以我们的特征包含关于对象的特定空间布局的较少信息。 因此,HOG更适合刚性对象,我们的功能更适合可变形对象类型。
  • 我们的训练程序如图3所示。最初的正例包括所有地面实况对象窗口。 作为最初的反面示例,我们从我们的选择性搜索生成的所有对象位置中选择具有20%到50%重叠的正面示例。 为了避免接近重复的否定示例,如果与另一个负数重叠超过70%,则排除负面示例。 为了使每个类的初始负数保持在20,000以下,我们随机减少了汽车,猫,狗和人类的一半负数。 直观地说,这组例子可以看作是与正面例子接近的困难否定。 这意味着它们接近决策边界,因此即使在考虑完整的负面集合时也可能成为支持向量。 实际上,我们发现这些训练样例的选择给出了相当好的初始分类模型。

Evaluation

Conclusion

  • 本文提出了适应选择性搜索的分割。 我们观察到图像本质上是分层的,并且区域形成对象的原因有很多种。 因此,单个自下而上分组算法永远不能捕获所有可能的对象位置。 为了解决这个问题,我们引入了选择性搜索,主要的见解是使用一组不同的互补和分层分组策略。 这使得选择性搜索稳定,稳健并且独立于对象类,其中对象类型的范围从刚性(例如汽车)到非刚性(例如猫),并且理论上也是无定形的(例如水)。
  • 在对象窗口方面,结果表明我们的算法优于[2]的“对象性”,其中我们的快速选择性搜索在2,134个位置达到0.804平均最佳重叠的质量。 与[4,9]相比,我们的算法在生成的窗口的质量和数量之间具有类似的权衡,对于多达790个位置具有大约0.790 MABO,它们产生的最大值。 然而,我们的算法速度提高了13-59倍。 此外,它每个图像最多可创建10,097个位置,从而产生高达0.879的MABO。
  • 在对象区域方面,我们的算法与[4,9]的组合产生了相当大的质量跳跃(MABO从0.730增加到0.758),这表明通过遵循我们的多样化范式,仍有改进的空间。
  • 最后,我们展示了选择性搜索可以成功地用于创建一个良好的Bag-of-Words定位和识别系统。 实际上,我们发现我们的选择性搜索位置的质量接近于我们的基于Bag的词对象识别版本的最佳质量。

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值