Semantic Structure From Motion with Points, Regions, and Objects论文翻译

最新推荐文章于 2022-08-29 00:28:14 发布

Janet_Hoo

最新推荐文章于 2022-08-29 00:28:14 发布

阅读量832

点赞数

分类专栏：计算机视觉机器人文章标签：语义

计算机视觉同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

机器人

1 篇文章 0 订阅

订阅专栏

第一次写博客，对各种规则不甚了解，本篇文章是对近两天所读论文的翻译，如有不慎侵权，请速联系我，定会及时删除~~对于文章内容，本人小白一枚，写本篇的作用主要是笔记~望各位大神批评指导~

Semantic Structure From Motion with Points, Regions, and Objects

摘要：
SFM目的在于：当收集了三维点并且从许多的输入图片中估计了相机的姿态时，共同的恢复场景的结构。本篇文章主要是：不仅仅恢复三维点，也要识别和估计高水平语义场景组成成分的位置，例如三维空间内的区域和物体。作为这个联合的推理问题的关键要素，我们寻求场景组成成分之间模型的多种类型的交互。这样的交互有助于调整使我们的解决方法有序化，并且比独立的解决这些问题能够有更好精度的结果。在公开数据集上的实验表明：
1.我们的框架相比于只使用点的SFM算法估计相机的位姿更鲁邦
2.我们的框架可以胜任精确的估计位姿与目标，区域，三维场景中的点位置，但大多数的SFM算法都只能估计点
3.我们的框架相比于其他使用单张图片识别的先进方法，可以更加准确的识别目标和区域。
简介：
在计算机视觉领域的一个核心的问题就是恢复一个场景的结构，并且估计图像观察者对图像而言的姿态和位置。解决这个问题的典型的算法为SFM。大多数SFM算法（28,29）都把场景的结构表示为一个三维点集。但是在许多应用中，例如机器人的操纵和自动导航，一个基于点的表示不够充足，结构和语义信息都需要。假设给定一个图1中的场景，一个人可能希望回答下面的问题：有杯子，桌子还是一个瓶子？他们在三维空间中的哪？他们的姿势是什么？大多数的SFM算法都不能给出这样一个问题的答案。

本文提出一种联合的场景结构复原（识别与估计点的位置，还有目标的位姿，在场景中的区域），从很少的输入图片（一些半标定的图片）中估计相机位姿的框架。

首先，我们提出将场景表示为点，目标或者区域的集合(他们之间有不同并且互补的属性)，但是SFM算法通常表示场景为点集。例如，点不携带语义信息，但是可以在不同的视角中进行鲁邦的匹配。但是除非局部仿射信息可以获得，大量的点之间的对应关系才可以获得来鲁邦的估计相机的位置。区域（例如一部分小路）携带较弱的语义信息，可以用于强加更加强的几何约束来估计相机姿态，但是不同视角间的匹配比点的匹配困难。物体携带更加丰富的语义信息，可以更强的约束（如果目标的姿态和尺度被估计）但是更难被匹配（由于自己遮挡等）通过联合模型点，区域和目标，可以利用这些属性来寻求最好的利用他们中的每一个。

第二，我们提出利用点，目标和区域之间的交互来帮助使未知参数的估计更有秩序。交互可以就位置，姿态和语义方面，建立场景组件(点，区域和目标为场景组件)对之间的关系模型。图5 和sec5详细的讨论我们在这篇工作中交互的类型。实验结果展示，建立场景组件之间的交互模型对于鲁邦的检测和定位是非常重要的。

本文的框架有三方面的优势，都可以看上面。在区域分类精度上有一个增长，主要的原因是双重的。首先，我们的框架关联相同物理区域不同视角之间的观察值，这使得我们能够整合不同视角的外观信息。第二，我们的框架可以估计区域的三维几何（位置和姿态），因此，可以利用外观和几何信息来给它分配一个语义标签（例如，一个桌子通常是水平的表面，然后有木质纹理的表面）

我们设计和利用了不同的数据集实验来测试我们的理论。

简介：
在计算机视觉领域的一个核心的问题就是恢复一个场景的结构，并且估计图像观察者对图像而言的姿态和位置。解决这个问题的典型的算法为SFM。大多数SFM算法（28,29）都把场景的结构表示为一个三维点集。但是在许多应用中，例如机器人的操纵和自动导航，一个基于点的表示不够充足，结构和语义信息都需要。假设给定一个图1中的场景，一个人可能希望回答下面的问题：有杯子，桌子还是一个瓶子？他们在三维空间中的哪？他们的姿势是什么？大多数的SFM算法都不能给出这样一个问题的答案。

本文提出一种联合的场景结构复原（识别与估计点的位置，还有目标的位姿，在场景中的区域），从很少的输入图片（一些半标定的图片）中估计相机位姿的框架。

首先，我们提出将场景表示为点，目标或者区域的集合(他们之间有不同并且互补的属性)，但是SFM算法通常表示场景为点集。例如，点不携带语义信息，但是可以在不同的视角中进行鲁邦的匹配。但是除非局部仿射信息可以获得，大量的点之间的对应关系才可以获得来鲁邦的估计相机的位置。区域（例如一部分小路）携带较弱的语义信息，可以用于强加更加强的几何约束来估计相机姿态，但是不同视角间的匹配比点的匹配困难。物体携带更加丰富的语义信息，可以更强的约束（如果目标的姿态和尺度被估计）但是更难被匹配（由于自己遮挡等）通过联合模型点，区域和目标，可以利用这些属性来寻求最好的利用他们中的每一个。

第二，我们提出利用点，目标和区域之间的交互来帮助使未知参数的估计更有秩序。交互可以就位置，姿态和语义方面，建立场景组件(点，区域和目标为场景组件)对之间的关系模型。图5 和sec5详细的讨论我们在这篇工作中交互的类型。实验结果展示，建立场景组件之间的交互模型对于鲁邦的检测和定位是非常重要的。

本文的框架有三方面的优势，都可以看上面。在区域分类精度上有一个增长，主要的原因是双重的。首先，我们的框架关联相同物理区域不同视角之间的观察值，这使得我们能够整合不同视角的外观信息。第二，我们的框架可以估计区域的三维几何（位置和姿态），因此，可以利用外观和几何信息来给它分配一个语义标签（例如，一个桌子通常是水平的表面，然后有木质纹理的表面）

我们设计和利用了不同的数据集实验来测试我们的理论。

-相关工作：
联合几何估计和语义理解的几个工作。12,15,11,25,10,20,6,13.他们当中，大多数都假设只可以获得单张图像，但是他们中的少数用多幅图片来为这个问题建模。 18展示了从立体图像对中的联合重构和分割的结果，但是基于假设：标定的相机基线较小。 7也假设小基线，并且在相机轨迹上也有假设。 3最近介绍了一个整合目标识别和SFM二者的一个构想。关键想法是使用目标识别来知道相机位姿的估计，然后同时使用估计的场景几何信息来帮助目标识别。但是3也有一些局限（1）它注重于建立结构化的模型（例如车，杯子，瓶子）然后忽视了无定型的场景组件（例如路，天空，那些很难被标准的目标检测器识别出来的桌子表面）（2）它假设三维点和三维目标在给定相机位姿下是独立的。最近的一个3的扩展已经在2中提出了获取点与目标之间之间的关系正在探索中。相比于2和3，我们提出一种新奇的框架，它连贯的整合区域以及他们与目标和点之间的交互关系，最后，使用场景组件交互的想法可以帮助估计场景布局，。这也在一些其他工作中被提及，但是大多数都只使用有限的交互类别，如27使用了点-区域交互，19使用了点-目标交互，12,15,4使用了目标-区域交互。我们的架构合并了所有类型的交互，来提高场景布局估计的精确度。

-框架：
首先介绍未知事件和测量。然后介绍我们提出的框架，并且把我们的问题视为一个能量最大化的问题。用推理算法解决最大化问题。

3.1. 测量以及未知事件
图片：输入是一个图片集合I = 这里写图片描述，角标是第几个输入图片

相机：相机可以由其内参（已知），旋转矩阵和平移向量（未知）描述（世界参考系）。

点（图2a）：点的测量检测感兴趣的点。例如通过22,30这样的检测器。
点的表示
目标（图2b）:目标的测量检测二维的目标，例如通过8,21这样的检测器
这里写图片描述
区域（图2c）区域测量是分割的区域，例如通过26,33这样的分割算法。我们基于外观和极线约束匹配不同视角的分割区域。如果一个区域在不同视角中被匹配，我们后续估计他的三维位姿然后分配给它一个语义标签。在图片Ik中的第l个区域记做blk，场景中的第r个三维区域为Br。我们假设三维区域是平面的。Br与区域测量gr之间的对应关系
这里写图片描述
物体和区域：二者属性之间的区别：1.三维体积，物体会占据一个确定的三维体积并且可以被一个三维的立方体限定起来，相反区域是一个表面的平面的一部分，它没有三维体积。2.是否三维物体的位置是可以从一个图片中预测。如果，典型三维物体的尺寸的先验知识可以获得，一个物体的三维位置可以粗略的从一个图片上检测到的二维物体来进行预测。一个区域的三维位置不能仅仅从一个图片进行预测，因为一个区域没有典型的尺寸。物体的例子，包括车，瓶子，人，区域则是路，天空。

-能量最大化框架：
给定一个输入图片的集合，我们要寻求1.识别物体和分类区域2.估计点，区域和物体的三维位置和姿态3.估计相机外参。本文框架遵从两个直觉：
1. 估计的三维物体，区域和点的图像投影应该是与他们的图像测量相一致.这样的一致性被度量，w.r.t. 位置，尺度和姿态。
2. 估计的场景组件之间的交互应该是与从训练集中习得的交互一致的。

根据直观的表达，可以通过图3中的因子图获取测量和未知事件之间的关系。
这里写图片描述
估计问题的解：
使用模拟退火方法来搜索解。用模拟退火过程来采样参数空间。在所有的采样点之中，我们寻找出最大的。与最大采样相关的参数就是公式1最后的结果，它与估计的相机，点，物体和区域相一致。

4.场景成分和能量：
我们的目标之一就是估计场景中成分（三维点，三维物体，三维区域）和他们与图像测量之间的对应。在3.1部分，已经讨论了如何从图像中获得这些的测量。本部分解释怎样基于测量来估计场景的组成成分

4.1估计三维物体
15,4已经展示了给定在图片中的检测，相机焦距，关于物体物理尺寸的先验知识，对我们来讲，大致的估计物体的三维位置是一种可能的事情。我们可以基于检测到的高检测得分的物体测量，获取三维物体的初始集合。对应关系{vt}通过图像中的投影{Ot}来给定。基于初始的三维物体的集合，我们搜索物体最好的配置，这里写图片描述
物体的能量可以通过公式计算：在这里，是一个观察到的测量的条件概率。这个概率的细节和优化过程可以参看参考文献3。

4.2 估计三维点
为了获得三维点Q，首先建立不同视角下检测到的感兴趣的点q之间的对应关系。就像在大多数的SFM算法中一样，对应关系us也意味着三维点Qs的存在。如果满足下面的两个条件，对应关系u很可能就成立：1. u连接的点有相似的特征描述子，2.u连接的二维点的位置是与相机C兼容的（例如极线约束）us可以通过任何的特征匹配算法来建立（如22,30）。对应的Qs可以通过三角化来进行估计。给定Qs和us，我们可以计算这里写图片描述我们寻找最好的点的配置，通过解下面这个公式其中，相机参数C是给定的。具体的概率模型的解释和优化过程，参考3.

4.3三维区域的估计
为了获得三维区域，与点类似的，我们首先建立不同视角区域测量之间的对应关系。一个对应关系则暗示一个三维区域Br的存在。4.3.1解释了给定对应关系时如何获取一个三维区域的初始集合{Br} 4.3.2则解释了怎样通过使用初始集合计算三维区域的能量。我们选择B作为方程的解：这里写图片描述

4.3.1 给定二维区域情况初始化三维区域
为了初始化三维区域，首先识别不同视角的二维区域之间的对应关系。二维区域可以从每个独立或者连贯的图像中获取。本文使用独立的图片。使用极线约束和外观匹配（颜色直方图和纹理特征）来找出一个潜在匹配的集合。给定一个二维区域的匹配集合这里写图片描述和相机参数C，我们可以初始化
通过一些方法初始化XYZnsc

三维区域的能量：
能量度量Br与测量之间的一致性程度。可以被分解为两个能量项的乘积这里写图片描述

场景组成成分之间的交互：
场景组成成分之间的交互的概念(物体，点和区域)起源于场景组成成分按照三维空间中确定的几何或者物理规则相关联这样的观察。例如，一个三维物体可能在一个三维区域里面，一个三维点也可能在三维物体里面。图片线索可以被用于验证这样的交互性质的存在。一对被假设有交互的场景组成成分可以与一个交互能量相关。这个能量是场景组成成分的三维位置，姿态和语义标签的一个函数。算法1的一个步骤是寻找OQB的最好的配置，为的是最大化这个能量然后用梯度下降方法求解。

5.1 物体-点的交互
若一个点在一个物体的表面，则这个点和这个物体就有交互作用。这也暗示了匹配的点应该与交叉视角匹配的物体相一致。若这个一致性条件被证实，就会有比较大的值，这种类型的交互在2中有表现。

5.2 物体-区域的交互
若满足两个条件：1.物体在一个表面物体上的存在2.物体姿态是直立（15,4那样）这时候，物体和区域之间存在交互作用。换句话说，区域是物体的支撑区域，可以在目标检测任务中被用来增加约束。反过来，检测到的目标也可以帮助支撑区域的几何的估计。若物体的底面接触到了区域的表面并且物体是直立的，则就存在比较大的值。

为了减少其他组合问题的规模，我们构造了一个候选的物体-区域交互集合。这个集合中的每个元素都遵循两个选择条件：1.物体边界框（图片测量到）的底边在区域之内2.Br的区域类别和物体类别是兼容的。这个兼容性被一个指示函数表达：这里写图片描述若类别ct对应的物体和类别cr对应的区域可能存在交互，则指示为1，否则为0.这个指示函数可以可以通过两个类别标签习得。若两个条件都满足，我们就说区域Br和物体Ot之间存在交互，然后评估他们对应的交互能量。

位置一致性：若Ot位于Br上面，他们在三维空间内的位置将会距离彼此很近，从物体的边界立方体的底端到表面之间的距离（点到平面之间距离）dt,r。假设高斯测量噪声，dt,r服从一个方差为的零均值高斯分布。通常，这个方差是一个类别ct,cr的函数：这里写图片描述

姿态一致性：若物体位于区域上面，物体的姿态和表面应该是一致的，表面的法线nr应该与物体的法线nt相一致。Nr和nt之间的角度可用于评价函数：这里写图片描述

总的能量：这里写图片描述

5.3 点-区域之间的交互
如果点位于区域的表面，则说点与区域之间存在交互。这暗示：1.点和区域的图像测量应该是一致的2.物体和区域的三维位置应该距离彼此很近。就像27和9这样的工作中，点-区域交互可以有助于提高点和区域的交叉视角匹配的准确性，也有助于估计点和区域的三维位置和姿态。如果点与区域在三维上距离很近，则这里写图片描述越大。点或者区域的错误的匹配将会导致估计的三维点和区域相距很远。与物体-区域交互类似的，我们也构造一个候选的点-区域交互的集合。若点的图像测量在区域的图像测量里面，则选中作为集合中的一个元素。点到平面的距离ds,r。假设有高斯测量噪声，ds,r服从高斯分布（类似上一小节）这里写图片描述

7.结论
我们已经提出一种从两个或者多个半标定相机中，联合估计的相机的位置和检测的目标，点，区域的一种新奇的框架。已经证明，通过建立点，区域和物体之间的交互关系模型，相比于独立估计场景元素时候可以有更高精度的结果.

总之，一幅图说明算法流程：这里写图片描述

翻译论文：Semantic Structure From Motion with Points, Regions, and Objects

下载链接：http://xueshu.baidu.com/s?wd=paperuri:%28399ec78fbce349fc5837cda85ea87f23%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http://ieeexplore.ieee.org/xpl/abstractAuthors.jsp?arnumber=6247992&ie=utf-8&sc_us=1753939315437168019%202012CVPR

Janet_Hoo

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Semantic Structure From Motion with Points, Regions, and Objects论文翻译

第一次写博客，对各种规则不甚了解，本篇文章是对近两天所读论文的翻译，如有不慎侵权，请速联系我，定会及时删除~~对于文章内容，本人小白一枚，写本篇的作用主要是笔记~望各位大神批评指导~Semantic Structure From Motion with Points, Regions, and Objects#### 摘要： SFM目的在于：当收集了三维点并且从许多的输入图片中估计了相机的姿态时
复制链接

扫一扫