使用梯度网格法识别透明物体（斯坦福大学论文翻译）

最新推荐文章于 2024-07-05 11:32:33 发布

南山二毛

最新推荐文章于 2024-07-05 11:32:33 发布

阅读量4.7k

点赞数 1

分类专栏：图像处理

本文链接：https://blog.csdn.net/qq_16481211/article/details/81938857

版权

图像处理专栏收录该内容

42 篇文章 14 订阅

订阅专栏

原文链接：https://docplayer.net/52742044-Transparent-object-recognition-using-gradient-grids.html
如果无法下载可以到我的CSDN链接下载：https://download.csdn.net/download/qq_16481211/10618887

摘要
1.引言
2.相关工作
3.技术方法
4.结果与讨论
5.未来工作
6.结论
致谢
参考文献

摘要

当今存在的大多数物体检测方法不是针对透明物体而定制的，其中局部特征发光或透明物体后面的背景改变。此外，透明对象没有自己的内在纹理或特征，因此很难使用图像补丁描述。该项目研究了基于梯度网格模板匹配方法的效率和有效性，该模板匹配方法被证明对于无纹理对象是成功的，可以检测各种类型背景中的透明对象。我们首先仅在无纹理背景上使用对象的渐变来形成模板，然后在我们扫描图像时使用相似性度量来确定感兴趣的对象是否在图像中。没有假设我们对测试图像中的背景知之甚少。量化和其他方法用于优化方法，使得实时对象检测成为可能，这对于诸如机器人之类的应用来说是重要的。

1.引言

对象检测，特别是实时对象识别一直是计算机视觉中最难的挑战之一。由于许多计算机视觉应用需要系统适应新环境并识别新对象，因此必须找到既稳健且计算效率高的解决方案。有两种主要的对象识别算法，即模板匹配和统计方法。统计方法[4-5]通常需要大量的训练数据并且计算量很大，因此它们不太适合实时物体识别。另一方面，模板匹配[6-7]为大多数类对象提供了一些实时解决方案。特别是对于高度纹理化的对象，存在可以针对训练图像有效计算的补丁描述符，并且后面的话可以容易地将这些描述符与测试图像中的类似描述符进行比较。然而，前面我的说的这些方法不适用于无纹理对象，因为没有很多有意义的描述符可以从无纹理对象中提取，在许多情况下，这些描述符会被来自杂乱背景的描述符控制，使得我们无法检测到无纹理。在[1-2]中使用了一种改进的模板匹配方法，以成功地检测杂乱背景中的无纹理对象，并且已经显示出比诸如HoG和DOT的方法更快且更鲁棒。其成功的原因在于它量化了无纹理对象的同时仍然保持其轮廓的图像特征。当我们考虑透明对象时，会提出更多挑战。它们在我们的日常生活中非常普遍，但很少有研究通过视觉线索检测透明物体。透明对象首先没有自己的内在纹理，而是像无纹理对象。我们观察到的任何纹理都是由于光线透过透明介质的光线，阴影和折射。因此，我们可以使用类似的模板匹配方法[1-2]，仅使用渐变网格，用于检测透明物体。但是透明对象具有随着背景照明变化或当其周围存在其他对象而变化的局部特征，如图1所示。我们想要测试基于对象图像渐变的模板匹配方法在检测透明对象时的稳健性。
这里写图片描述
图1.演示透明对象的局部特征在不同背景下如何变化。如果我们对这些对象使用简单的补丁描述符，则检测结果会波动并对背景变化非常敏感。在本文的后面，我们首先详细说明问题并讨论相关工作，描述技术方法，然后检查各种测试图像的检测结果。但是透明对象具有随着背景照明变化或当其周围存在其他对象而变化的局部特征，如图1所示。我们想要测试基于对象图像渐变的模板匹配方法在检测透明对象时的稳健性。

2.相关工作

统计学习和模板匹配方法已经用于各种类型的对象识别，并且两者都有各自的优缺点。统计学习方法通常需要大量训练图像和长训练时间，因为它们的目标是识别测试图像中对象的一般类别，而不是检测对象是否与系统之前看到的内容匹配。因此，通常统计学习方法不适用于实时跟踪和检测任务。
统计学习方法包括梯度直方图[]，其总结了图像块内强度的分布。该方法具有高识别准确率，但计算上非常昂贵。更昂贵的方法是使用SIFT描述符，然后使用支持向量机等学习算法来检测图像中的对象[]。
另一方面，模板匹配在实时对象检测（例如机器人技术）中始终具有重要作用，因为它具有简单的概念和管理所有不同类型对象的能力。其最大的好处之一是它不需要大量的训练图像，因此训练系统所需的时间可以大大减少。
任何模板匹配方法的关键在于用于确定训练模板和测试图像之间的匹配的相似性度量。第一个模板匹配方法之一涉及计算Hausdorff距离[7]，这是测试图像中所有边缘点到模板中最近边缘点的最大距离，反之亦然。
虽然朴素的Hausdorff距离对遮挡和背景噪声非常敏感，但是可以通过仅取最大距离的一小部分来实现解决方法。这将移除模板上的边缘点与图像中对应的遮挡边缘点之间的无限距离。然而，这意味着有必要估计测试图像中的最大杂波量。
Hausdorff距离的变化是模板中的边缘点与测试图像之间的倒角距离作为相似性度量[8]。可以使用图像的距离变换快速计算该距离，但对模板和测试图像中的异常边缘点仍然非常敏感。无论如何，计算负荷不是轻的，并且这两个距离都依赖于使用某种形式的边缘检测器找到边缘点，例如Canny边缘检测器。设置边缘检测器的阈值始终是一门技术，检测到的边缘对照明和背景杂波的变化很敏感，因此这两种方法都不是完全可靠的。除了使用图像边缘点之外，还存在使用图像梯度的方法，然后将相似性度量定义为模板边缘梯度与测试图像边缘梯度之间的点积。
然而，这些需要密集采样以获得准确的结果，并且通常在计算上不实用。此外，在这种情况下必须确保产品正常化，否则由于背景杂乱中的较大梯度会产生误报。
该项目中使用的方法克服了所需的密集采样，也不需要大量的训练数据。每个透明对象用来自各种视点的一组模板表示，并且每个模板是主要图像梯度的补丁。然后使用模板来检测测试图像中的感兴趣对象。

3.技术方法

3.1 数据收集

我们希望使用有效的模板匹配来检测透明对象。我们的模型模板的训练数据是一组透明参考物体的二维图像，并且是在干净整洁的背景。一个数据集具有从多个视点捕获的对象（参见图2），测试物体检测是否确实对视点和轻微失真不变。第二个数据集的每个对象都有一个模板（从正面看），其主要目的是测试由于光照或背景变化对局部特征变化识别的稳健程度。对于每个训练图像，为这些图像中的每一个创建二元掩模，以便于创建没有背景混乱的模型模板。
然后处理这些数据以形成一组模型模板，这是我们检测系统的基础。这些模板将与许多难度级别的测试图像上的补丁相匹配：(1)没有背景杂乱的图像，(2)带有一些背景杂乱的图像，(3)具有大量背景杂乱的图像。

图2.这是一组透明对象的训练参考图像和二进制掩码的示例

3.2算法概要

Set T = 8

//训练阶段
For each object to detect
    //计算模板
    For each location in the object's bounding box 
    //遍历对象边界框中的每个位置
        Compute the gradient orientation//计算梯度方向
        Quantize each gradient orientation//量化梯度方向
    For each location in template 
    //遍历模板中的每个位置
        Set gradient orientation at this location to be the quantized orientation that occurs the most often in its 3x3 neighborhood//smoothing
        //将此位置处的渐变方向设置为在其3x3邻域中最常出现的量化方向 
        Spread quantized orientation at this location to
        //在此位置传播量化的方向

    //预计算响应图
    For each possible combination of quantized gradient orientation 
    //遍历量化梯度方向的每种可能组合
        Calcutate the maximum response of that combination to a single quantized gradient 
        //计算该组合对单个量化梯度的最大响应

//Testing step测试阶段
For each test image 
    For each location in image
        Compute the gradient orientation,and smooth 
        //计算渐变方向，并平滑
    For each learned template
        For each template-sized patch in image
            Calculate the similarity score
            //计算相似度得分
            if similarity score > threshold
                annotate this patch as an object instance of the template it's currently being compared to
                //将此补丁注释为当前与之比较的模板的对象实例

该模板匹配算法不仅允许识别对象类，而且还提供粗略的姿势估计，假设对于每个对象，所学习的模板覆盖该对象感兴趣的姿势范围。例如，对于图2中的透明玻璃，如果我们只使用这六个模板，它将在水平面上给出一个大约90度的范围。如果要检测更多姿势，还应添加更多模板。

3.3 模型模板计算

梯度方向大多不受照明的影响和背景的变化，这是所有二元边缘检测器的问题。此外，因为对于透明物体，物体轮廓内的局部特征可能随着背景和光照的变化而变化，因此轮廓物体轮廓的图像梯度比其他物体描述符更可靠。
因此，我们只想利用对象的梯度方向。计算图像中每个点的梯度方向。为了完全消除二元边缘检测器的问题，然后对梯度进行归一化。
为了进一步使该方法稳健，我们采用红色，蓝色和绿色通道中的最大梯度，使得颜色或光照变化不会导致梯度方向的任何偏差。因此，对于具有R，G，B颜色通道的图像I，图像G中位置x处的梯度方向G（x）被定义为
这里写图片描述
处理由噪声产生的假阳性梯度的位置，具有低于a的规范的梯度忽略某个阈值，以消除由于图像中的噪声引起的一些弱梯度。

3.4 模板计算的优化

为了提高速度和鲁棒性，然后基于角度将梯度量化为9个不同的箱。另外，因为我们对表征透明物体的轮廓感兴趣，我们不区分完全相反方向的梯度方向，并且仅将梯度方向限制为0到180度（参见图3）。为了进一步消除由噪声引起的梯度，我们将位置处的梯度方向作为最常出现的量化梯度方向（主导梯度方向）在3乘3邻域中的位置。
这里写图片描述
图3.如上所示，梯度方向被量化为9个区间，没有180到360度范围内的方向。可以量化到不同数量的箱子，但是9箱子对于我们的目的来说似乎足够精确。
然后，我们通过将一个单独像素的梯度添加为像素的T x T邻域中的梯度来扩展梯度（参见图4）。这使得我们可以在获得模板后加快检测步骤，并且在检测测试图像中的对象时也允许轻微的失真或错位。
这里写图片描述
图4.扩展渐变方向以获得稳健性。（a）在第一个网格中，箭头表示从训练图像获得的原始梯度方向。（b）将每个位置的梯度方向扩展到3×3邻域，得到第二个方向网格。如果我们将这个方向模板与测试图像中的一组方向进行比较，测试图像中的轻微失真仍然可能导致匹配。（c）第三个网格显示量化的方向是如何实际存储的。如果我们只量化到两个箱，则存储网格看起来像这样，如果某个位置具有水平方向分量，则第二个位打开，如果某个位置具有垂直方向分量，则打开第一个位。

为了提高效率，在量化之后，每个位置使用二进制字符串存储梯度方向，如图4所示。二进制字符串中的每个1表示该像素具有对应梯度方向的分量。

计算了梯度方向后的轮廓可视化，找到并量化然后展开的主要梯度，如图5所示。很明显，轮廓非常清晰，并且因为它们被标准化，所以不用担心错误由于照明或背景杂乱导致的过度主导梯度导致的正面影响。
这里写图片描述
图5.（a）原始训练图像（b）使用常规方法计算的梯度图像（c）量化后的梯度图像。灰度级各自代表一个量化方向。（d）量化和扩散后的梯度图像

3.5 相似性度量

相似性度量旨在对背景杂乱，和小翻译和变形。给定梯度方向模板T和测试图像I，我们将相似性得分定义为
这里写图片描述
这里，Pos是模板T中具有非零梯度方向的位置集，因此我们不必检查给定模板中的所有位置因为近乎无纹理的物体上的许多像素将不可避免地完全没有梯度方向。另请注意，在图像的每个位置，我们在该位置的邻域中采用与模板的方向匹配的最大值，使得该方法对于测试图像中的轻微失真更加稳健。
必须考虑方向的差异，计算其余弦，并在测试图像中的每个位置的邻域中找到该值的最大值，并且对于每个单个模板非常耗时。通过预先计算每个可能的量化梯度组合（在模板图像中）与每个可能的量化梯度方向（在测试图像中）的相似性响应，可以加速该计算。因此，可以通过相似性响应的哈希表中的一些查找来获得相似性得分。
为了确定我们是否检测到对象，我们对相似性得分施加阈值，并且只有测试图像中具有比可能感兴趣的对象的潜在实例更高分数的补丁。对于这个项目，尝试了几个阈值，并给出了最好的阈值可以通过相似性响应的哈希表中的一些查找来获得相似性得分。
在速度方面还有一个可以完成的优化。因为我们之前已经在模板中扩展了渐变方向，所以现在可以不必逐个像素地扫描补丁，这是一个非常耗时的过程。我们可以一次跳过T像素，不会遗漏任何重要信息。

4.结果与讨论

4.1 小位移和扭曲

这种方法对于小位移和扭曲非常稳健。逐步旋转无纹理桌面上的透明玻璃，为玻璃收集了一组60幅图像，从0度一直到水平面上的360度。在这60个中，15个被用作训练图像以形成模型模板，其余被视为测试图像。该组中的每个图像的方向略有不同，并且由于旋转是手动且不完美的，因此也可能略微彼此偏移。
无论平移或旋转的微小变化如何，上述方法都在图像中拾取几乎所有这些对象。用类似无纹理背景的其他透明物体（如杯子和水瓶）进行测试，表1总结了该方法在干净背景上对这些物体的有效性。
这里写图片描述
通过这些结果，我们可以得出结论，在整洁的背景上，模板匹配方法可以有效地检测稍微扭曲的物体，只要背景保持干净整洁，就像在训练图像中一样。

图6.检测各种方向和小位移的透明玻璃。尽管原始训练模板与这些眼镜的方向和位置不完全相同（但接近），但每个案例中的玻璃都被成功找到。
这里写图片描述
图7.即使存在各种程度的背景杂乱，模板匹配也能找到透明玻璃。在最后两幅图像中，眼镜的比例不同，但两个对象都被成功检测到，这表明这种方法对于规模的微小变化是稳健的。

4.2背景杂乱

在杂乱的背景中，我们期望看到更多的误报，因为背景中的某些东西与透明感兴趣对象具有相似轮廓的概率大大增加。实际上，如果我将阈值分数降低到0.5，我会发现在玻璃杯周围检测到许多阳性结果。然而，选择0.9的评分阈值，在上面显示的所有图像中都准确地检测到玻璃并且存在任何误报，并且在其他测试情况下检测率也很高。假阳性率的真实阳性率为98％-2％，与一些更好的统计学习方法相当，并且优于一些模板匹配方法。当杯子的背景有类似的东西时，假阳性大多出现，例如带有水平线条的垫子（因为杯子的方向几乎是水平的，垫子看起来与探测器相似，尽管它的相似度得分较低）比实际的杯子）。
在上面的第三和第四图像中，图像几乎相似，但是第四图像中的玻璃比第二图像略大，但仍然成功地检测到。由此我们可以看出，模板匹配方法对于测试图像中对象的小规模变化也是鲁棒的。在测试的图像中，尺度范围，与系统成功检测到的训练图像对象比例相比，（1.0,1.5）

4.3关于相似度得分的注意事项

有很多方法可以在相似度得分上设置阈值，以确定某些图像补丁是否确实是一些有意义的对象。我们可以取相似度得分的绝对值并给它一个阈值。然而，这个数字总是随着我们用不同的对象测试而变化，因为每个对象上的梯度像素的数量将是不同的，并且将随着到对象的距离和对象的方向而变化。因此，这不是一种强有力的评分方法。
也可以在扩展梯度方向之前或之后使用模板图像中的梯度点的数量，但是恰好具有更多局部特征的误报可以得分高于具有较少局部特征的实际对象，因为蔓延。
因此，在该项目中采用的解决方案是在平滑测试图像中的梯度方向时增加邻域范围。测试各种大小的邻域以平滑，最佳大小恰好是T，我们选择将方向扩展到的邻域的大小，在这种情况下为8。在平滑后将相似性得分归一化模板中梯度像素的数量，0.9的阈值能够给出高检测率和低假阳性率。

5.未来工作

深度信息是一种可以使用的新模式，尤其是现在流行的Kinect传感器，可提供有价值的3D深度信息。该信息可以帮助使检测结果更加稳健，特别是因为深度传感器通常在透明物体的位置处显示不可能的深度。将该信息与梯度方向相似性度量耦合可以改善检测结果。
此外，尝试通过透明物体模拟光的折射将是有趣的。照明确实极大地影响了特别是玻璃制透明物体的局部特征，如果可以精确地模拟光线通过玻璃的折射或以某种方式解释它，有可能提取物体的真实轮廓而不必担心局部特征。
同样，由于照明对透明（和折射）物体的影响很大，因此研究对象的检测不是一个测试图像，而是在不同光照条件下有两个图像 - 可能是用闪光灯拍摄的图像一个没有。光折射的变化可以帮助系统检测方程中的常数，并有助于改善检测结果。

6.结论

基于梯度网格的模板匹配方法适用于透明物体检测，并且实现了高检测率，可以与统计学习中的检测率和一般（非透明）对象的其他模板匹配方法进行比较。有兴趣进一步研究透明物体的特性，并利用这些知识来改善透明物体的特性并且实现了高检测率，可以与统计学习中的检测率和一般（非透明）对象的其他模板匹配方法进行比较。

致谢

本报告的作者要感谢李飞飞博士和助教在本课程中提供的帮助和指导。

参考文献

[1] S. Hinterstoisser等。用于实时检测无纹理对象的梯度响应图。在PAMI [2] S. Hinterstoisser等。用于实时检测重杂乱场景中无纹理对象的多模板模板。在ICCV
[3] M.Fritz等人。一种透明物体识别的附加潜在特征模型。在NIPS
[4] C. Huang等人。矢量Boosting旋转不变多视点人脸检测。在CVPR
[5] P. Viola和M. Jones。快速多视图人脸检测。在CVPR
[6] D. Gavrila和V. Philomin。智能车辆的实时目标检测。在ICCV
[7] D.Huttenlocher等人。用Hausdorff距离比较图像。在TPAMI
[8] G. Borgefors。分层倒角匹配：参数化边缘匹配算法。
在IEEE模式分析和机器智能交易中同样注意，因为照明对透明（和折射）物体影响很大，所以研究不是用一个测试图像检测物体，而是在不同光照下检测两个图像是有意义的。条件可能是用闪光灯拍摄的，也可以是闪光灯曲线。光折射的变化可以帮助系统检测方程中的常数，并有助于改善检测结果。