VSO:Visual Semantic Odometry(ECCV 2018)
推荐另外三篇视觉语义里程计论文:
. 《Probabilistic Data Association for Semantic SLAM》 ICRA 2017 宾夕法尼亚大学
. 《Stereo Vision-based Semantic 3D Object and Ego-motion Tracking for Autonomous Driving》 ECCV 2018 港科大
. 《Long-term Visual Localization using Semantically Segmented Images》ICRA 2018
vso- 苏黎世联邦理工;svo-苏黎世大学;slam++, SemanticFusion-英国帝国理工学院。
摘要
该篇论文提出了一种用语义信息实现中期连续点跟踪的方法。可以被简单地融合进已有的直接或间接视觉里程计框架中。在自动驾驶下应用该方法实现了巨大改善。
1. Introduction
为了减小积累的误差,相关观测图像之间的关联用于联合估计姿态和地图。有两种正交方法:
第一种使用图像之间的短期关联来获得暂时的漂移校正,通过过渡性地建立连续相机帧之间的约束。这种方法在车辆长期在直线公路上前进时非常有效。
第二种通过回环检测在远帧之间建立长距离约束。这种情况适用于相机重复访问之前的位置,或者基于建立好的地图定位的情况。
本文提出利用语义信息来改善第一种漂移校正策略,建立点的中期连续跟踪。目前自动驾驶领域的一流方案中都缺少不变量的呈现:无论是基于特征的ORB-SLAM还是直接法的LSD-SLAM或者DSO,不能连续跟踪一个点持续很长距离。因为它们的呈现对视角和光照变化并不鲁棒。
Fig.1. 追上前面的车辆过程中,跟踪的Patch由于尺度变化后跟踪失效,但语义信息一直保持一致。
由于图1中的问题,该场景下的沿着路走的车辆无法实现中期跟踪。
论文的主要思想为使用语义作为不变的场景呈现元素。潜在假设为视角、尺度、光照的变化仅仅影响低等级的物体表观,而不影响它们的语义含义。本文提出独特的visual semantic odometry (VSO) 来整合语义约束到姿态和地图优化中。
论文的贡献如下:
1) 推导一种独特的最小化语义投影误差的损耗函数,而且发现可以使用期望最大化(EM)法最小化。可以与任何语义分割算法结合。
2) 将语义误差项整合到VO算法中显著改善自动驾驶场景的平移漂移问题。
3) 我们做了实验分析什么条件下有改善,并讨论当前限制。
2. Related Work
视觉里程计系统可以这样分类:滤波或非滤波优化,稀疏或稠密,直接或间接。论文旨在提出应用语义误差项改善数据关联。因此,论文提出的方法和现有的VO方法不太一样,它们大部分使用语义来做VO或者做图像-模型关联。
直接法 最小化相邻帧相关像素的光度误差。由于能量函数基于图像梯度,因此很需要好的相机初始化姿态和场景结构来收敛。作者一再强调光度误差度量对小的视角和光照变化不鲁棒。大部分直接法都只能短时间内跟踪,引入语义使得跟踪范围加大。
间接法 最小化3D地图点到观测图像中的投影误差。间接VO一般使用特征匹配建立稀疏的联系,因此对视角和光照变化更加鲁棒。由于其局部性质,特征检测和描述子对大的变化并不能适应。因此和直接法的局限性差不多。
语义建图 基于已知姿态从图像中建立语义3D地图。地图通过固定相机位置来联合推断语义和几何信息来建立,论文的方法也建立了语义标注的3D地图作为副产品。但论文专注于联合优化语义、几何和相机姿态。
语义视觉里程计方法 使用更高等级特征,如线、平面或物体来改善VO鲁棒性或获得更丰富的地图呈现。该部分详细论述了一下,Bowman 的《probabilistic data association for semantic slam》提出概率关联模型来避免硬决策,与之对比,作者的论文不需要离散数据关联,它通过考虑物体边界的连续距离来获得,而不是仅仅是独立的物体检测。(In contrast, our approach does not need a discrete data association by considering continuous distances to object boundaries rather than individual object detections)
通过聚焦于语义物体边界,我们可以处理很多语义物体。比如,我们既可以利用凸物体,还有不能被矩形框描述的物体,如街道、天空、建筑。
语义图像-模型匹配 有人分割三维物体,通过将物体投影到2d分割图像中。同时期作品中,有将语义标注的3d点投影到语义分割图像中的。它们需要一个事先建立并标记的3d模型,作为对比,文中是为VO设计。
3. Visual Semantic Odometry
3.1. Visual Semantic Odometry Framework
一些基本的符号定义:
. 输入图像
. 相机姿态
,其中 T k ∈ S E ( 3 ) T_k∈SE(3) Tk∈SE(3).
. 地图点
首先基本的里程计目标函数为:
其中 e b e_b eb a _a a s _s s e ( k , i ) _e(k,i) e(k,i)表示在第 k k k个相机下看到的第 i i i个点的cost。要么被定义为光度差异(直接法)或者几何差异(间接法)。由于作者表示提出的语义方法可以基于原来的方法改善,所以该公式即为原本算法的误差模型。重点在于接下来的语义模型。
对于输入图像,进行语义分割,得到稠密的,每个点都有类别的分类图像。因而每个地图点除了3d位置,也包含了分类信息。
定义 w i ( w_i^( wi( c ^c c ) ^)