Semantic Structure From Motion with Points, Regions, and Objects论文翻译

第一次写博客,对各种规则不甚了解,本篇文章是对近两天所读论文的翻译,如有不慎侵权,请速联系我,定会及时删除~~对于文章内容,本人小白一枚,写本篇的作用主要是笔记~望各位大神批评指导~

Semantic Structure From Motion with Points, Regions, and Objects

  • 摘要:
    SFM目的在于:当收集了三维点并且从许多的输入图片中估计了相机的姿态时,共同的恢复场景的结构。本篇文章主要是:不仅仅恢复三维点,也要识别和估计高水平语义场景组成成分的位置,例如三维空间内的区域和物体。作为这个联合的推理问题的关键要素,我们寻求场景组成成分之间模型的多种类型的交互。这样的交互有助于调整使我们的解决方法有序化,并且比独立的解决这些问题能够有更好精度的结果。在公开数据集上的实验表明:
    1.我们的框架相比于只使用点的SFM算法估计相机的位姿更鲁邦
    2.我们的框架可以胜任精确的估计位姿与目标,区域,三维场景中的点位置,但大多数的SFM算法都只能估计点
    3.我们的框架相比于其他使用单张图片识别的先进方法,可以更加准确的识别目标和区域。

  • 简介:
    在计算机视觉领域的一个核心的问题就是恢复一个场景的结构,并且估计图像观察者对图像而言的姿态和位置。解决这个问题的典型的算法为SFM。大多数SFM算法(28,29)都把场景的结构表示为一个三维点集。但是在许多应用中,例如机器人的操纵和自动导航,一个基于点的表示不够充足,结构和语义信息都需要。假设给定一个图1中的场景,一个人可能希望回答下面的问题:有杯子,桌子还是一个瓶子?他们在三维空间中的哪?他们的姿势是什么?大多数的SFM算法都不能给出这样一个问题的答案。

本文提出一种联合的场景结构复原(识别与估计点的位置,还有目标的位姿,在场景中的区域),从很少的输入图片(一些半标定的图片)中估计相机位姿的框架。

首先,我们提出将场景表示为点,目标或者区域的集合(他们之间有不同并且互补的属性),但是SFM算法通常表示场景为点集。例如,点不携带语义信息,但是可以在不同的视角中进行鲁邦的匹配。但是除非局部仿射信息可以获得,大量的点之间的对应关系才可以获得来鲁邦的估计相机的位置。区域(例如一部分小路)携带较弱的语义信息,可以用于强加更加强的几何约束来估计相机姿态,但是不同视角间的匹配比点的匹配困难。物体携带更加丰富的语义信息,可以更强的约束(如果目标的姿态和尺度被估计)但是更难被匹配(由于自己遮挡等)通过联合模型点,区域和目标,可以利用这些属性来寻求最好的利用他们中的每一个。

第二,我们提出利用点,目标和区域之间的交互来帮助使未知参数的估计更有秩序。交互可以就位置,姿态和语义方面,建立场景组件(点,区域和目标为场景组件)对之间的关系模型。图5 和sec5详细的讨论我们在这篇工作中交互的类型。实验结果展示,建立场景组件之间的交互模型对于鲁邦的检测和定位是非常重要的。

本文的框架有三方面的优势,都可以看上面。在区域分类精度上有一个增长,主要的原因是双重的。首先,我们的框架关联相同物理区域不同视角之间的观察值,这使得我们能够整合不同视角的外观信息。第二,我们的框架可以估计区域的三维几何(位置和姿态),因此,可以利用外观和几何信息来给它分配一个语义标签(例如,一个桌子通常是水平的表面,然后有木质纹理的表面)

我们设计和利用了不同的数据集实验来测试我们的理论。

  • 简介:
    在计算机视觉领域的一个核心的问题就是恢复一个场景的结构,并且估计图像观察者对图像而言的姿态和位置。解决这个问题的典型的算法为SFM。大多数SFM算法(28,29)都把场景的结构表示为一个三维点集。但是在许多应用中,例如机器人的操纵和自动导航,一个基于点的表示不够充足,结构和语义信息都需要。假设给定一个图1中的场景,一个人可能希望回答下面的问题:有杯子,桌子还是一个瓶子?他们在三维空间中的哪?他们的姿势是什么?大多数的SFM算法都不能给出这样一个问题的答案。

本文提出一种联合的场景结构复原(识别与估计点的位置,还有目标的位姿,在场景中的区域),从很少的输入图片(一些半标定的图片)中估计相机位姿的框架。

首先,我们提出将场景表示为点,目标或者区域的集合(他们之间有不同并且互补的属性),但是SFM算法通常表示场景为点集。例如,点不携带语义信息,但是可以在不同的视角中进行鲁邦的匹配。但是除非局部仿射信息可以获得,大量的点之间的对应关系才可以获得来鲁邦的估计相机的位置。区域(例如一部分小路)携带较弱的语义信息,可以用于强加更加强的几何约束来估计相机姿态,但是不同视角间的匹配比点的匹配困难。物体携带更加丰富的语义信息,可以更强的约束(如果目标的姿态和尺度被估计)但是更难被匹配(由于自己遮挡等)通过联合模型点,区域和目标,可以利用这些属性来寻求最好的利用他们中的每一个。

第二,我们提出利用点,目标和区域之间的交互来帮助使未知参数的估计更有秩序。交互可以就位置,姿态和语义方面,建立场景组件(点,区域和目标为场景组件)对之间的关系模型。图5 和sec5详细的讨论我们在这篇工作中交互的类型。实验结果展示,建立场景组件之间的交互模型对于鲁邦的检测和定位是非常重要的。

本文的框架有三方面的优势,都可以看上面。在区域分类精度上有一个增长,主要的原因是双重的。首先,我们的框架关联相同物理区域不同视角之间的观察值,这使得我们能够整合不同视角的外观信息。第二,我们的框架可以估计区域的三维几何(位置和姿态),因此,可以利用外观和几何信息来给它分配一个语义标签(例如,一个桌子通常是水平的表面,然后有木质纹理的表面)

我们设计和利用了不同的数据集实验来测试我们的理论。

-相关工作:
联合几何估计和语义理解的几个工作。12,15,11,25,10,20,6,13.他们当中,大多数都假设只可以获得单张图像,但是他们中的少数用多幅图片来为这个问题建模。 18展示了从立体图像对中的联合重构和分割的结果,但是基于假设:标定的相机基线较小。 7也假设小基线,并且在相机轨迹上也有假设。 3最近介绍了一个整合目标识别和SFM二者的一个构想。关键想法是使用目标识别来知道相机位姿的估计,然后同时使用估计的场景几何信息来帮助目标识别。但是3也有一些局限(1)它注重于建立结构化的模型(例如车,杯子,瓶子)然后忽视了无定型的场景组件(例如路,天空,那些很难被标准的目标检测器识别出来的桌子表面)(2)它假设三维点和三维目标在给定相机位姿下是独立的。最近的一个3的扩展已经在2中提出了获取点与目标之间之间的关系正在探索中。相比于2和3,我们提出一种新奇的框架,它连贯的整合区域以及他们与目标和点之间的交互关系,最后,使用场景组件交互的想法可以帮助估计场景布局,。这也在一些其他工作中被提及,但是大多数都只使用有限的交互类别,如27使用了点-区域交互,19使用了点-目标交互,12,15,4使用了目标-区域交互。我们的架构合并了所有类型的交互,来提高场景布局估计的精确度。

-框架:
首先介绍未知事件和测量。然后介绍我们提出的框架,并且把我们的问题视为一个能量最大化的问题用推理算法解决最大化问题

3.1. 测量以及未知事件
图片:输入是一个图片集合I =这里写图片描述,角标是第几个输入图片

相机:相机可以由其内参(已知),旋转矩阵和平移向量(未知)描述(世界参考系)。

点(图2a):点的测量检测感兴趣的点。例如通过22,30这样的检测器。
点的表示
目标(图2b):目标的测量检测二维的目标,例如通过8,21这样的检测器
这里写图片描述
区域(图2c)区域测量是分割的区域,例如通过26,33这样的分割算法。我们基于外观和极线约束匹配不同视角的分割区域。如果一个区域在不同视角中被匹配,我们后续估计他的三维位姿然后分配给它一个语义标签。在图片Ik中的第l个区域记做blk,场景中的第r个三维区域为Br。我们假设三维区域是平面的。Br与区域测量gr之间的对应关系
这里写图片描述
物体和区域:二者属性之间的区别:1.三维体积,物体会占据一个确定的三维体积并且可以被一个三维的立方体限定起来,相反区域是一个表面的平面的一部分,它没有三维体积。2.是否三维物体的位置是可以从一个图片中预测。如果,典型三维物体的尺寸的先验知识可以获得,一个物体的三维位置可以粗略的从一个图片上检测到的二维物体来进行预测。一个区域的三维位置不能仅仅从一个图片进行预测,因为一个区域没有典型的尺寸。物体的例子,包括车,瓶子,人,区域则是路,天空。

-能量最大化框架:
给定一个输入图片的集合,我们要寻求1.识别物体和分类区域2.估计点,区域和物体的三维位置和姿态3.估计相机外参。本文框架遵从两个直觉:
1. 估计的三维物体,区域和点的图像投影应该是与他们的图像测量相一致.这样的一致性被度量,w.r.t. 位置,尺度和姿态。
2. 估计的场景组件之间的交互应该是与从训练集中习得的交互一致的。

根据直观的表达,可以通过图3中的因子图获取测量和未知事件之间的关系。
这里写图片描述
估计问题的解:
使用模拟退火方法来搜索解。用模拟退火过程来采样参数空间。在所有的采样点之中,我们寻找出最大的。与最大采样相关的参数就是公式1最后的结果,它与估计的相机,点,物体和区域相一致。

4.场景成分和能量:
我们的目标之一就是估计场景中成分(三维点,三维物体,三维区域)和他们与图像测量之间的对应。在3.1部分,已经讨论了如何从图像中获得这些的测量。本部分解释怎样基于测量来估计场景的组成成分

4.1估计三维物体
15,4已经展示了给定在图片中的检测,相机焦距,关于物体物理尺寸的先验知识,对我们来讲,大致的估计物体的三维位置是一种可能的事情。我们可以基于检测到的高检测得分的物体测量,获取三维物体的初始集合。对应关系{vt}通过图像中的投影{Ot}来给定。基于初始的三维物体的集合,我们搜索物体最好的配置,这里写图片描述
物体的能量可以通过公式计算: 这里写图片描述在这里,是一个观察到的测量的条件概率。这个概率的细节和优化过程可以参看参考文献3。

4.2 估计三维点
为了获得三维点Q,首先建立不同视角下检测到的感兴趣的点q之间的对应关系。就像在大多数的SFM算法中一样,对应关系us也意味着三维点Qs的存在。如果满足下面的两个条件,对应关系u很可能就成立:1. u连接的点有相似的特征描述子,2.u连接的二维点的位置是与相机C兼容的(例如极线约束)us可以通过任何的特征匹配算法来建立(如22,30)。对应的Qs可以通过三角化来进行估计。给定Qs和us,我们可以计算这里写图片描述我们寻找最好的点的配置,通过解下面这个公式这里写图片描述其中,相机参数C是给定的。具体的概率模型的解释和优化过程,参考3.

4.3三维区域的估计
为了获得三维区域,与点类似的,我们首先建立不同视角区域测量之间的对应关系。一个对应关系则暗示一个三维区域Br的存在。4.3.1解释了给定对应关系时如何获取一个三维区域的初始集合{Br} 4.3.2则解释了怎样通过使用初始集合计算三维区域的能量。我们选择B作为方程的解: 这里写图片描述

4.3.1 给定二维区域情况初始化三维区域
为了初始化三维区域,首先识别不同视角的二维区域之间的对应关系。二维区域可以从每个独立或者连贯的图像中获取。本文使用独立的图片。使用极线约束和外观匹配(颜色直方图和纹理特征)来找出一个潜在匹配的集合。给定一个二维区域的匹配集合 这里写图片描述和相机参数C,我们可以初始化 这里写图片描述
通过一些方法初始化XYZnsc
这里写图片描述

三维区域的能量:
能量度量Br与测量之间的一致性程度。可以被分解为两个能量项的乘积这里写图片描述 这里写图片描述

场景组成成分之间的交互:
场景组成成分之间的交互的概念(物体,点和区域)起源于场景组成成分按照三维空间中确定的几何或者物理规则相关联这样的观察。例如,一个三维物体可能在一个三维区域里面,一个三维点也可能在三维物体里面。图片线索可以被用于验证这样的交互性质的存在。一对被假设有交互的场景组成成分可以与一个交互能量相关。 这里写图片描述这个能量是场景组成成分的三维位置,姿态和语义标签的一个函数。算法1的一个步骤是寻找OQB的最好的配置,为的是最大化这个能量这里写图片描述然后用梯度下降方法求解。

5.1 物体-点的交互
若一个点在一个物体的表面,则这个点和这个物体就有交互作用。这也暗示了匹配的点应该与交叉视角匹配的物体相一致。若这个一致性条件被证实,这里写图片描述就会有比较大的值,这种类型的交互在2中有表现。

5.2 物体-区域的交互
若满足两个条件:1.物体在一个表面物体上的存在2.物体姿态是直立(15,4那样)这时候,物体和区域之间存在交互作用。换句话说,区域是物体的支撑区域,可以在目标检测任务中被用来增加约束。反过来,检测到的目标也可以帮助支撑区域的几何的估计。若物体的底面接触到了区域的表面并且物体是直立的,则这里写图片描述就存在比较大的值。

为了减少其他组合问题的规模,我们构造了一个候选的物体-区域交互集合。这个集合中的每个元素都遵循两个选择条件:1.物体边界框(图片测量到)的底边在区域之内2.Br的区域类别和物体类别是兼容的。这个兼容性被一个指示函数表达:这里写图片描述若类别ct对应的物体和类别cr对应的区域可能存在交互,则指示为1,否则为0.这个指示函数可以可以通过两个类别标签习得。若两个条件都满足,我们就说区域Br和物体Ot之间存在交互,然后评估他们对应的交互能量。

位置一致性:若Ot位于Br上面,他们在三维空间内的位置将会距离彼此很近,从物体的边界立方体的底端到表面之间的距离(点到平面之间距离)dt,r。假设高斯测量噪声,dt,r服从一个方差为 的零均值高斯分布。通常,这个方差是一个类别ct,cr的函数:这里写图片描述

姿态一致性:若物体位于区域上面,物体的姿态和表面应该是一致的,表面的法线nr应该与物体的法线nt相一致。Nr和nt之间的角度可用于评价函数:这里写图片描述

总的能量: 这里写图片描述

5.3 点-区域之间的交互
如果点位于区域的表面,则说点与区域之间存在交互。这暗示:1.点和区域的图像测量应该是一致的2.物体和区域的三维位置应该距离彼此很近。就像27和9这样的工作中,点-区域交互可以有助于提高点和区域的交叉视角匹配的准确性,也有助于估计点和区域的三维位置和姿态。如果点与区域在三维上距离很近,则这里写图片描述越大。点或者区域的错误的匹配将会导致估计的三维点和区域相距很远。与物体-区域交互类似的,我们也构造一个候选的点-区域交互的集合。若点的图像测量在区域的图像测量里面,则选中这里写图片描述作为集合中的一个元素。点到平面的距离ds,r。假设有高斯测量噪声,ds,r服从高斯分布(类似上一小节)这里写图片描述

7.结论
我们已经提出一种从两个或者多个半标定相机中,联合估计的相机的位置和检测的目标,点,区域的一种新奇的框架。已经证明,通过建立点,区域和物体之间的交互关系模型,相比于独立估计场景元素时候可以有更高精度的结果.

总之,一幅图说明算法流程:这里写图片描述

翻译论文:Semantic Structure From Motion with Points, Regions, and Objects

下载链接:http://xueshu.baidu.com/s?wd=paperuri:%28399ec78fbce349fc5837cda85ea87f23%29&filter=sc_long_sign&tn=SE_xueshusource_2kduw22v&sc_vurl=http://ieeexplore.ieee.org/xpl/abstractAuthors.jsp?arnumber=6247992&ie=utf-8&sc_us=1753939315437168019%202012CVPR

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
地形数据测量是许多地貌研究应用程序的基本方面,尤其是那些包括地形监测和地形变化研究的应用程序。然而,大多数测量技术需要相对昂贵的技术或专门的用户监督。 Motion(SfM)摄影测量技术的结构通过允许使用消费级数码相机和高度自动化的数据处理(可以免费使用)减少了这两个限制。因此,SfM摄影测量法提供了快速,自动化和低成本获取3D数据的可能性,这不可避免地引起了地貌界的极大兴趣。在此贡献中,介绍了SfM摄影测量的基本概念,同时也承认了其传统。举几个例子来说明SfM在地貌研究中的应用潜力。特别是,SfM摄影测量为地貌学家提供了一种工具,用于在一定范围内对3-D形式进行高分辨率表征,并用于变化检测。 SfM数据处理的高度自动化既创造了机遇,也带来了威胁,特别是因为用户控制倾向于将重点放在最终产品的可视化上,而不是固有的数据质量上。因此,这项贡献旨在指导潜在的新用户成功地将SfM应用于一系列地貌研究。 关键词:运动结构,近距离摄影测量,智能手机技术,测量系统,表面形态echnology reduces both these constraints by allowing the use of consumer grade digital cameras and highly automated data processing, which can be free to use. SfM photogrammetry therefore offers the possibility of fast, automated and low-cost acquisition of 3-D data, which has inevitably created great interest amongst the geomorphological community. In this contribution, the basic concepts of SfM photogrammetry are presented, whilst recognising its heritage. A few examples are employed to illustrate the potential of SfM applications for geomorphological research. In particular, SfM photogrammetry offers to geomorphologists a tool for high-resolution characterisation of 3-D forms at a range of scales and for change detection purposes. The high level of automation of SfM data processing creates both opportunities and threats, particularly because user control tends to focus upon visualisation of the final product rather than upon inherent data quality. Accordingly, this contribution seeks to guide potential new users in successfully applying SfM for a range of geomorphic studies.

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值