【论文翻译】Segmentation as Selective Search for Object Recognition

最新推荐文章于 2020-03-22 21:17:51 发布

浪里夕阳

最新推荐文章于 2020-03-22 21:17:51 发布

阅读量209

点赞数

分类专栏：论文翻译

本文链接：https://blog.csdn.net/weixin_42534624/article/details/99689692

版权

SS算法同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

论文翻译

1 篇文章 0 订阅

订阅专栏

选择性搜索算法

1 篇文章 0 订阅

订阅专栏

**##机翻，只给大家做个参考##
1.介绍
      物体识别，即确定图像中物体的位置和类别，在过去几年中取得了令人印象深刻的进展，参见Pascal VOC挑战[8]。最先进的技术基于对图像的详尽搜索以找到最佳对象位置[6,9,13,28,29]。然而，由于在穷举搜索中要评估的图像和窗口的总数是巨大且不断增长的，因此有必要约束每个位置的计算和所考虑的位置的数量。目前通过使用具有简单计算特征[6,9,13,28,29]的弱分类器以及通过减少粗网格上具有固定窗口大小的位置数量来减少计算[6,9， 27]。这是以忽略某些对象位置和错误分类其他位置为代价的。因此，我们建议选择性搜索，大大减少要考虑的位置数量。具体来说，我们建议使用分段来生成一组有限的位置，允许更强大但更昂贵的词袋特征[5,23,26]。
      通过[3,7]成功地利用选择性搜索进行对象描绘，即创建图像的逐像素分类。两者都集中在每个图像10-100个可能重叠的片段上，这最好对应于一个物体。他们专注于寻找精确的物体轮廓，这就是为什么两个参考都使用功能强大的专用轮廓检测器[2]。在本文中，我们重新考虑分割，以用作选择对象识别的最佳位置的工具。我们的目标是生成1,000-10,000个近似位置，而不是针对10-100个准确位置。为了增强对象识别，（1）每个图像生成数千个位置保证包含几乎所有对象，以及（2）粗分割包括已知对对象分类有益的局部上下文[6,25]。因此，我们将计算注意力精确地放在图像的这些部分上，这些部分承载了对象分类的最多信息。
      Hoiem等人早先提出了强调回忆（鼓励包括所有潜在相关的图像碎片）。 [14]用于表面布局分类，并由Russell等人采用。 [22]用于潜在对象发现。在参考文献中，其使用仅限于改变分割的规模，而其寻找对象的潜力尚未被研究。 Malisiewicz和Efros [21]研究了段捕获对象的能力，而不是穷举搜索的边界框。它们还主要改变分割的规模。相比之下，本文使用完整的分割层次结构，并通过使用各种不变的颜色空间来说明尽可能多的不同场景条件，例如阴影，阴影和高光。此外，我们在回忆和识别准确性方面证明了分割作为挑战性Pascal VOC数据集的选择性搜索的能力。
      总而言之，我们做出以下贡献：（1）我们通过将其作为选择对象识别的最佳位置的工具来重新考虑分割。我们把重点放在召回上，而不是精确对象边界上的良好对象近似。（2）我们证明通过不变颜色空间对场景条件进行计算会产生一种强大的选择性搜索策略，具有较高的召回率。（3）我们表明，我们的选择性搜索可以被用在更有价值的功能，如词袋模型，并大大提高了20个类别中8个类别的Pascal VOC 2010检测挑战的最新技术水平。
2.相关工作
      在图2中，可以看到本文与其他工作的关系。本地化研究一般可分为两类。 1）重视认可（第2.1节）。在这里确定对象类比找到精确的轮廓更重要，并且穷举搜索是常态。 2）强调对象描述（第2.2节）。这里对象轮廓是最重要的，分割的使用是常态。
      这些类别有两个例外。 Vedaldiet al。 [27]使用跳跃窗口[4]，其中学习各个视觉词与对象位置之间的关系以预测新图像中的对象位置。 Maji和Malik [20]将这些关系中的多个结合起来，使用Hough变换预测对象位置，之后他们随机地对靠近Hough最大值的窗口进行采样。这两种方法都可以看作是选择性搜索。与学习相比，我们采用分割作为选择性搜索来生成与类无关的对象假设。
2.1 识别中的穷举搜索
      由于物体可以位于图像中的任何位置和比例，因此在任何地方搜索都很自然[6,13,28]。然而，视觉搜索空间巨大，使得穷举搜索在计算上非常昂贵。这对每个位置的评估成本和/或所考虑的位置数量施加了限制。因此，大多数这些滑动窗口技术使用粗略搜索网格和固定宽高比，使用弱分类器和经济图像作为级联分类器中的预选步骤[13,28]。
      与滑动窗技术相关的是Felzen szwalb等人非常成功的基于部件的对象定位方法[9]。他们的方法还使用线性SVM和HOG特征执行穷举搜索。然而，他们搜索物体和物体部件，其组合产生令人印象深刻的物体检测性能。
      兰伯特等人[15]开发了一个分支定界技术，直接搜索图像中的最佳窗口。虽然他们获得了线性分类器的令人印象深刻的结果，[1]发现对于非线性分类器，实际上该方法仍然访问每个图像超过100,000个窗口。
      虽然以前的方法都是特定类的，但Alexe等人[1]建议搜索任何对象，独立于其类。他们在具有明确定义的形状（与例如草）相对的那些对象的对象窗口上训练分类器。然后，他们不是进行完整的穷举搜索，而是随机抽样他们应用分类器的方框。具有最高“对象性”度量的框用作一组对象假设。然后使用该集合来大大减少由特定于类的对象检测器评估的窗口数量。
      在本文中，我们不是进行详尽的搜索，而是提出将分割作为选择性搜索，使得能够立即使用昂贵且可能更强大的识别技术。与除[1]之外的所有详尽方法相比，我们的方法产生一个完全与类无关的对象假设集。
2.2 选择性搜索对象描述
      在对象描绘领域，Carreira等人[3]和Endres和Hoiem [7]提出使用分割生成一组类独立对象假设。两种方法都生成多个前景/背景分割，学习预测前景片段是完整对象的可能性，并使用此方法对片段进行排名。两种算法都显示出准确描绘图像内物体的能力，[17]证实了这些算法在使用[3]的像素方式分类方面取得了最先进的结果。本文使用选择性搜索对象识别，因此我们更加强调重新调用和欢迎粗糙对象位置而不是精确的对象描绘。我们可以省略[3,7]中包含的优秀但昂贵的[2]轮廓检测器，使我们的算法在大型数据集上计算可行。与[3,7]相比，我们使用分层分组算法而不是多个前景/背景分割。
      顾等人[12]解决了根据零件仔细分割和识别物体的问题。他们首先使用基于[2]的分组方法生成一组部分假设。每个部分假设都由外观和形状特征描述。然后通过使用其部件识别并仔细描绘对象，从而获得用于形状识别的良好结果。在他们的工作中，分段仅限于单个层次结构，而不评估其覆盖部件或对象的功能。在本文中，我们通过使用各种颜色空间使用多种层次分割，并评估它们的潜力以找到完整的对象。
3.分割作为选择性搜索
      在本节中，我们将分段调整为对象识别的选择性搜索。这种适应导致以下考虑因素：
      **高召回率。**永远无法识别未生成位置的对象。因此，召回是最重要的标准。为了获得高召回率，我们观察了以下内容：（1）对象可以在图像中的任何比例下发生。而且，一些对象包含在其他对象中。因此，有必要在所有尺度上生成位置，如图3所示。（2）没有单一的最佳策略将区域组合在一起：边缘可以表示一个图像中的对象边界，而另一个图像中的相同边缘年龄可能是阴影的结果。因此，不是针对单个最佳分割，而是组合多个互补分割是重要的，即我们想要使用所使用的分割集合。
      **足够的粗糙位置。**由于对象识别中的最新技术使用外观特征，因此对象假设的精确对象轮廓不太重要。因此，不是强烈关注对象边界（例如[2]），评估应侧重于找到对象位置的合理近似值，例如通过Pascal重叠准则[8]测量。
      **快速计算。**在大型数据集上执行对象本地化时，对象假设的生成不应成为瓶颈。
3.1我们的分割算法
      在所有尺度上生成位置的最自然的方法是使用来自分层分割算法的所有位置（如图1所示）。我们的算法使用大小和外观特征，这些特征在整个层次结构中有效传播，使其速度相当快。请注意，我们保持算法基本以确保可重复性，并明确我们的结果不是源于参数调整，而是来自重新思考分段的目标。
      由于区域可以产生比像素更丰富的信息，我们从过度分割开始，即一组不分布在多个对象上的小区域。我们使用[10]的快速方法作为我们的起点，[2]发现它非常适合产生过度分割。
      从最初的区域开始，我们使用一个贪婪的算法，它将两个最相似的区域迭代地组合在一起，并计算这个新区域与其邻居之间的相似性。我们一直持续到整个图像变成单个区域。作为潜在的对象位置，我们考虑整个层次结构中的所有段（包括初始段），或者我们考虑这些段周围的紧密边界框。
      我们将区域a和b之间的相似性S定义为S（a，b）= Ssize（a，b）+ Stexture（a，b）。两个分量导致范围[0,1]中的数字并且被均等地加权。
Ssize（a，b）被定义为段a和b共同占据的图像的分数。这项措施鼓励小区域尽早合并，防止单个区域逐个吞噬所有其他区域。
      Stexture（a，b）被定义为类似SIFT的纹理测量之间的直方图相交[18]。对于这些测量，我们在一个区域上聚合8个方向的梯度幅度，就像在没有高斯加权的SIFT的单个子区域中一样。当我们使用颜色时，我们接下来[26]并分别在每个颜色通道中进行纹理测量并连接结果。
3.2 阴影，阴影和高光边缘
      为了获得多个完全相同的分割，我们在具有不同不变性属性的各种颜色通道中执行分割。具体来说，我们考虑对阴影，阴影和高光边缘具有不同灵敏度的多个颜色空间[11]。标准RGB是最敏感的。对手色彩空间对高光边缘不敏感，但对阴影和阴影边缘敏感。标准化的RGB空间对阴影和阴影边缘敏感，但仍然对高光敏感。色调H是最不变的，对阴影，阴影和高光不敏感。请注意，我们可以在单个颜色空间中执行每个分段，包括[10]的初始分段。
      对于多个颜色空间的替代方法是对起始分段使用不同的阈值。我们也评估这种方法。
3.3 讨论
      我们将分割的适应性作为对象识别的选择性搜索，旨在通过考虑图像分割的层次分组的所有级别来获得高召回率。此外，通过考虑具有增加的成像条件不变性水平的多个色彩空间，我们对通过阴影，阴影和高光引入到图像中的附加边缘是鲁棒的。最后，我们的方法很快，使其适用于大型数据集。
4.物体识别系统
      在本节中，我们将详细介绍如何使用第3节中的选择性搜索策略来构建完整的对象识别系统。作为特征表示，两种类型的特征占主导地位：定向梯度直方图（HOG）[6]和词袋[5,23]。已经证明HOG与Felzenszwalb等人的基于部件的模型相结合是成功的。 [9]。然而，由于他们使用详尽的搜索，HOG功能与线性分类器相结合是唯一可行的选择。为了表明我们的选择性搜索策略能够使用更昂贵且可能更强大的功能，我们使用Bag-of-Words进行对象识别[13,15,27]。我们使用比[13,15,27]更强大（和昂贵）的实现，采用多个颜色空间和更精细的空间金字塔划分[16]。
      具体来说，我们在单个刻度上的每个像素处对描述符进行采样。我们从[26]，OpponentSIFT和RGB-SIFT中提取SIFT [18]和两个推荐的颜色SIFT。使用[26]的软件。我们使用大小为4,096的可视码本和4级的空间金字塔。因为空间金字塔导致比构成HOG描述符的单元格更粗略的空间细分，所以我们的特征包含关于对象的特定空间布局的较少信息。因此，HOG更适合刚性对象，我们的功能更适合可变形对象类型。
      作为分类器，我们使用支持向量机使用[24]的直方图交集核。我们使用快速[19]的近似分类策略。我们的训练程序如图4所示。最初的正面例子包括所有真实对象的胜利。作为最初的反面例子，我们使用由我们的选择性搜索生成的所有对象位置，其具有20％至50％的重叠，具有正例子，除非它们与另一个负片具有超过70％的重叠，即我们避免接近重复。这个训练样例的选择给出了相当不错的初始分类模型。
      然后我们进入再训练阶段以迭代地添加硬反面例子（例如[9]）：我们使用由我们的选择性搜索生成的位置将学习的模型应用于训练集。对于每个负面图像，我们添加最高得分位置。由于我们的初始训练集已经产生了良好的模型，因此我们的模型仅在两次迭代中收敛。
      对于测试集，最终模型应用于我们的选择性搜索生成的所有位置。窗口按分类器分数排序，而与较高评分窗口重叠30％以上的窗口被视为近似重复并被删除。
5.评估
      为了评估我们的选择性搜索策略的质量，我们执行以下四个实验：
**•实验1:**评估如何调整选择性搜索的分段。具体来说，我们将多个平面分割与层次结构进行比较，并评估越来越不变的颜色空间的使用。
**•实验2:**将分割作为选择性搜索与生成用于识别的良好对象位置的任务进行比较[1,13,27]。
**•实验3:**将分割作为选择性搜索进行比较，以生成用于分割的良好对象定义[3,7]。
**•实验4:**评估了第4节对象识别系统中对象假设的使用，对[9]广泛接受的对象定位方法进行了评估，并将其与现有技术进行了比较[8,9,29]]。
在所有实验中，我们报告了具有挑战性的Pascal VOC 2007或2010数据集的结果[8]。这些数据集包含20个对象类别的图像和基于对象标签的基础事实，关于边界框的位置，以及对于像素方式分割的对象位置的数据子集。
      如[13,27]所述，假设的质量是根据所有类别的平均召回率与检索到的位置数量来定义的。我们使用标准Pascal重叠准则[8]，如果候选位置和地面真实位置的交叉区域除以其并集区域大于0.5，则认为找到了一个对象。请注意，在前两个实验中，位置是一个边界框，而在第三个实验中，它是一个分段。任何参数选择仅在训练集上完成，而本文中的结果在测试集上报告。
5.1 Exp 1：选择性搜索的分段
      在本实验中，我们评估如何使分段适应选择性搜索。首先，我们将多个平面分割与分层分割进行比较。其次，我们评估各种颜色空间的使用。
      平面与层次结构。由于我们的分割算法从[10]的初始分割开始，我们通过[10]将我们的分层版本与多个平面分割进行比较。我们在RGB色彩空间中这样做。我们通过将阈值k从100设置为1000来逐步改变[10]的规模，步长为10，步长为50.对于我们的分层算法，我们使用最小阈值100.改变阈值k导致比a更多的段单层次分组，因为在[10]中，由高阈值产生的分段边界不是来自小阈值的分段边界。因此，我们还考虑使用阈值100和200的两个层次分段。
      从表1中可以看出，多个平面分割比单个分层分组产生更高的召回率，但使用更多的位置。但是，如果我们选择两个初始阈值并组合结果，我们的算法产生89.4而不是87.7的重新调用，而仅使用511个位置而不是1159.因此，分层方法优于多个平面分割，因为它产生更好的结果，参数较少，自然选择所有尺度。加上盟友，我们发现它要快得多。
      多个颜色空间。我们现在测试两种多样化策略以获得更高的召回率。如在之前的实验中所见，使用多个起始分割是有益的。此外，我们测试如何组合具有不同不变性属性的不同颜色空间可以增加找到的对象的数量。具体来说，我们在RGB颜色空间中进行分割，然后在对手颜色空间，标准化rgb颜色空间和Hue通道中添加分割。我们对k = 100的单个初始分割，k = 100,200的两个初始分割和k = 100,150,200,250的四个初始分割进行此操作。结果如图5所示。可以看出，改变初始分割和使用各种不同颜色通道都产生了补充对象位置。请注意，使用四个不同的颜色空间比使用四个不同的空间分割效果更好。此外，当使用所有四个颜色空间时，两个和四个初始分割之间的差异可以忽略不计。我们得出结论，随着不变性的增加而改变颜色空间比改变初始分割的阈值更好。在随后的实验中，我们总是使用这两个初始分割。
      关于参数的敏感性。在训练集的初步实验中，我们使用了其他颜色空间，例如HSV，HS，标准化rg加强度，仅强度等。但是，我们发现只要选择具有一系列不变性属性的颜色空间，结果非常相似。为了便于说明，我们在本文中使用了具有最清晰不变性属性的颜色空间。此外，我们发现，只要产生良好的横向，k的确切选择就不重要了。最后，纹理直方图的不同实现总体上几乎没有变化。我们得出结论，本文中获得的召回不是由参数调整引起的而是通过不同的颜色不变性属性实现分割策略的多样化。

浪里夕阳

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【论文翻译】Segmentation as Selective Search for Object Recognition

**##机翻，只给大家做个参考##1.介绍物体识别，即确定图像中物体的位置和类别，在过去几年中取得了令人印象深刻的进展，参见Pascal VOC挑战[8]。最先进的技术基于对图像的详尽搜索以找到最佳对象位置[6,9,13,28,29]。然而，由于在穷举搜索中要评估的图像和窗口的总数是巨大且不断增长的，因此有必要约束每个位置的计算和所考虑的位置的数量。目前通过使用具有简单计算特征[6,9,13...
复制链接

扫一扫

专栏目录