Segmentation as Selective Search for Object Recognition(论文翻译)

因为最近要学习压缩域视频目标跟踪,有大神给我推荐了一篇论文,告诉我按照这篇论文方法做可以实现。
主要步骤是:先假设,然后分类,形成参考数据,最后画出跟踪框架。
以下是对这篇文章的翻译:

Segmentation as Selective Search for Object Recognition

分割作为对象识别的选择性搜索

Abstract-摘要

对于目标识别,目前最先进的方法是穷举搜索。然而,为了能够使用更昂贵的功能和分类器,从而超越最先进的技术,一个选择性的搜索策略是必要的。因此,我们通过重新考虑分割来适应分割作为选择性搜索:我们提出在少量和精确的物体轮廓上生成许多近似的位置,因为(1)一个从未生成过正切的物体无法被识别,(2)视觉和邻近的上下文是最有效的对象识别。我们的方法是类无关的,并且显示了在PascalVOC 2007测试集中仅使用每个图像的1,536个位置就覆盖了96.7%的所有对象。我们的选择性搜索允许使用更昂贵的单词包方法,我们使用该方法来大幅提高国家的艺术水平,在PascalVOC 2010检测挑战的20个级别中有8个提高了8.5%。

1. Introduction-介绍

对象识别,即。在过去的几年里,确定一个物体在图像中的位置和类别已经取得了令人印象深刻的进展,参见Pascal VOCchallenge[8]。最先进的艺术是基于穷举搜索的图像,以找到最佳的对象位置[6,9,13,28,29]。但是,由于穷举搜索中要计算的图像和窗口的总数非常大,而且还在不断增加,因此有必要限制每个位置的计算和所考虑的位置的数量。目前,通过使用具有简单计算功能的弱分类器[6,9,13,28,29],以及通过减少粗网格上的位置数量和固定窗口大小[6,9,27]来减少计算。这是以忽略某些对象位置和对其他对象进行错误分类为代价的。因此,我们提出了选择性搜索,大大减少了需要考虑的位置数量。具体来说,我们建议使用分割来生成一组有限的低阳离子,从而允许更强大但更昂贵的词包特性[5,23,26]。
在这里插入图片描述
图1.给定一个图像(a)我们的目标是找到其对象其中地面真理(b)所示。为了达到这个目标,我们适应seg-mentation选择性搜索策略:我们的目标是高召回bygenerating尺度和位置占许多differentscene条件采用多个不变的色彩空间。示例对象假设在(d)中被可视化。
[3, 7]成功地利用了选择性搜索进行对象描述,即创建一个像素级的图像分类。两者都专注于每幅图像10-100个可能重叠的片段,这些片段最适合一个物体。他们专注于寻找准确的物体轮廓,这就是为什么这两个引用都使用了一个强大的,专门的轮廓探测器[2]。在这篇论文中,我们重新考虑将分段作为选择最佳位置进行目标识别的工具。我们的目标不是10-100次精确定位,而是生成1000 - 10000次近似的低聚焦。为了提高目标识别,(1)在每幅图像中生成几千个位置保证包含几乎所有的目标,(2)粗糙分割包括已知的有利于目标分类的局部上下文[6,25]。因此,我们把我们的计算注意力精确地放在图像的这些部分,这些部分承载了最多的对象分类信息。
强调回忆(鼓励包含所有潜在相关的图像碎片)是Hoiemet al.[14]较早提出的用于表面布局分类的方法,Russellet al.[22]用于潜在对象发现。在参考文献中,它的用途仅限于改变分割的规模,而其寻找目标的潜力还有待研究。Malisiewicz和Efros[21]研究了段捕获对象的效果,而不是穷穷搜索的边界框。它们还主要改变了细分市场的规模。相反,这个pa-per使用一个完整的分割层次结构,通过使用各种不同的颜色空间,尽可能多地考虑不同的场景条件,如阴影、阴影和高光。此外,我们在回忆和识别的准确性方面证明了分割作为有挑战性的PascalVOC数据集的选择性搜索的力量。
总之,我们做了以下贡献:(1)我们重新考虑分割作为一个工具,选择最佳位置的对象识别。我们最重视回忆,喜欢好的对象近似而不是精确的对象边界。(2)我们证明了通过不变的colourspace来考虑场景条件的结果是一个强大的具有高回忆的选择性搜索策略。(3)我们证明,我们的选择性搜索能够使用更昂贵的功能,如单词包,并大大提高了PascalVOC 2010检测chall的技术水平。

2. Related Work-相关工作

在图2中,可以看到本文与其他工作的关系。本地化研究通常可以分为两类。1)工作重点是识别(2.1节)。在这里,确定对象类比找到精确的轮廓更重要,而穷举搜索是标准方法。2)工作重点是物体轮廓(2.2节)。在这里,物体轮廓是最重要的,使用分割是规范。
在这里插入图片描述
图2.本文相对于相关工作的位置
这些类别有两个例外。Vedaldiet al.[27]使用了跳跃窗口[4],通过学习单个视觉单词与目标位置之间的关系来预测新图像中的目标位置。Maji和Malik[20]使用Hough-transform组合这些关系中的多个来预测对象位置,然后他们随机采样接近Houghmaximum的窗口。这两种方法都可以看作是选择性搜索。相对于学习,我们采用分割作为选择性研究来生成类独立的对象假设。

2.1. Exhaustive Search for Recognition-穷举识别

由于一个对象可以位于图像中的任何位置和比例,所以很自然地到处搜索[6,13,28]。然而,视觉搜索的空间是巨大的,使得一个过度使用的搜索在计算上是昂贵的。这对每个地点的评价费用和(或)所考虑的地点数目造成了限制。因此,这些滑动窗口技术大多使用粗搜索网格和固定高宽比,使用弱分类器和经济图像特征,如HOG[6,13,28]。这种方法常被用作级联分类器的预选步骤[13,28]。
与滑动窗口技术相关的是Felzen-szwalbet al.[9]非常成功的基于部件的对象本地化方法。他们的方法还利用线性支持向量机和HOG特征进行了详尽的研究。但是,它们搜索objectsandobject部分,这些部分的组合产生了令人印象深刻的对象检测性能。
Lampertet al.[15]开发了一个分支,并结合tech-nique来直接搜索animage中的最优窗口。虽然他们在线性分类器上取得了令人印象深刻的结果,但[1]发现,对于非线性分类器,该方法在实践中仍然每幅图像访问超过100,000个窗口。
虽然以前的方法都是特定于类的,但是Alexeet等人建议搜索任何对象,独立于它的类。他们在那些具有明确形状的对象的对象窗口上训练分类器。草)。然后,他们不再进行全面彻底的搜索,而是随机抽取盒子样本,并将其应用到分类器中。具有最高客观测量的盒子作为一组对象假设。然后使用这个集合来极大地减少由类特定对象检测器评估的窗口的数量。
在本文中,我们建议将分割作为一种选择性搜索,而不是穷举式搜索,以便能够立即使用昂贵且可能更强大的识别技术。与除[1]之外的所有穷举方法相比,我们的方法生成一个完全类无关的对象假设集。

2.2. Selective Search for Object Delineation-对象描述的选择性搜索

在物体描绘的范围内,两部分都是。[3]、Endres和Hoiem[7]提出了利用分割生成一组类独立的对象假设。这两种方法都生成多个前景/背景分段,学习预测一个前-地段是一个完整对象的可能性,并使用这个方法对这些段进行排序。这两种算法都显示了在图像中精确描绘物体的潜力,[17]证实了这一点,[17]使用[3]实现了最先进的像素级image分类结果。本文采用选择性搜索的方法对目标进行识别,因此我们更强调重调用和欢迎粗略的目标位置,而不是精确的目标轮廓。我们可以忽略[3,7]中所包含的[2]的优秀但昂贵的巡检器,这使得我们的算法在大型数据集上是可行的。相比之下[3,7],我们使用层次分组算法来代替多个前景/背景分段。
Guet al.[12]解决了基于对象的部件仔细分割和识别对象的问题。他们首先使用基于[2]的分组方法生成一组部分假设。每一部分的假设都是由外形特征和形状特征描述的。然后利用物体的各个部分对其进行识别和精细描绘,从而获得良好的形状识别结果。在他们的工作中,分割被限制在一个单一的层次结构中,而其揭示部分或对象的能力没有得到评估。在本文中,我们通过使用多种颜色空间,使用多种层次分割,并评估它们的潜力,以找到完整的对象。

3. Segmentation as Selective Search-分割作为选择性搜索

因为最近比较忙,先翻译部分,未完待续。。。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值