复杂感知环境下的语义视觉定位

最新推荐文章于 2024-07-12 20:21:46 发布

yanqs_whu

最新推荐文章于 2024-07-12 20:21:46 发布

阅读量3.6k

点赞数

分类专栏：泡泡机器人

泡泡机器人专栏收录该内容

29 篇文章 9 订阅

订阅专栏

泡泡图灵智库，带你精读机器人顶级会议文章
标题：Semantics-aware Visual Localization under Challenging Perceptual Conditions
作者：Tayyab Naseer Gabriel L. Oliveira Thomas Brox Wolfram Burgard
来源：ICRA 2017
编译：博主
审核：
欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

大家好，今天为大家带来的文章是——复杂感知环境下的语义视觉定位，该文章发表于ICRA 2017。

复杂感知环境，即天气变化、光照变化和季节变化等，对视觉定位而言非常具有挑战性。机器人定位如果使用视觉定位算法，则其必须具有一定的鲁棒性，能够适应动态变化的场景。目前视觉定位算法通常是从整个图像或某个CNN提取的区域上提取特征来进行视觉定位，也存在一些方法使用图像序列信息来解决场景变化和低精度的图像匹配问题。

在本文中，作者提出了一种判别整体图像内容的方法，能够根据图像内容生成一个密集的场景显著性描述。本文使用了感知环境变化大的数据集来训练学习显著性描述，保证能够在图片上分割出更加稳定的区域，剔除易随时间变化的区域。最后本文将显著区域的特征和现有的整体图像上的特征进行融合，从而得到了一个更加鲁邦的场景描述。除此之外，本文还提供了一个时间跨度3年，在复杂感知环境下采集的带语义标签数据。

本文在Freiburg采集了几公里数据，并做了充分测试，证明本文算法比当前其他基于深度神经网络和人工特征算子的算法性能更优。

主要贡献

本文主要有以下三方面的贡献：

本文提出了一个鲁邦的二值分割和特征聚合深神经网络。
本文在不同的数据集测试发现，本文提出的算法比当前基于深度神经网络具有更加鲁邦的视觉定位结果；并且本文的算法能在单GPU上以14hz实时运行。
本文提供了一个包含长期天气、季节和地物变化的数据集，并进行了粗略的标记以便进行语义显著性检测。

算法流程

在这里插入图片描述
图1. 本文算法的主要框架，其中主要分为两部分。第一部分是进行语义分割，将稳定性更高的区域分割出来。第二部分则是利用conv3进行特征聚类和特征降维，进而进行视觉定位。

语义分割，本文使用了上卷积网络架构，其架构细节基于Fast-Net，如图2所示，能够实时进行语义分割，并保证分割精度。
在这里插入图片描述
图2 Fast-Net网络架构

训练数据

本文的训练总共有三个，其中Cityscapes和Virtual KITTI是已经公开的数据集，Freiburg数据集是本文提供的数据集。

Cityscapes基于车载场景，提供了像素级的语义标签；Virtual KITTI是由游戏引擎渲染得到，并尽可能保证与KITTI近似。Freiburg数据集是本文提供的数据集，具有较大的时间跨度，并包含了各种各样的感知环境，例如下雪天，树叶遮挡变换，地物变化等等。图3展示了几种数据集下的数据。
在这里插入图片描述
图3 训练数据集

####网络训练

本文的方法并不需要特别精确的分割结果，只需要一个图像的显著图，通常是各种人造地物。因此，网络的主要任务是进行二分类任务，将显著区域分割出来，其损失函数定义如下：
在这里插入图片描述
然后网络训练过程记为寻找参数f，使得整体损失最小，如下式所示：

场景描述

场景描述本文融合了全图和显著区域的特征，使用conv3提取特征，然后将两个特征进行融合归一化后得到场景的描述子。同时考虑到实时性，本文还采用稀疏随机投影法进行描述子降维，从而获取维度更低的特征描述子。
最后本文再将待查询图片与数据进行cosine距离比较来完成视觉定位，距离定义如下：
在这里插入图片描述

主要结果
本文的测评主要是在Freiburg数据集上进行，其采集时间分别是2012年夏季，2012冬季和2015年夏季。同时本文还分别于DCNN、HOG算法进行了比较。
在这里插入图片描述
图4 本文算法在杂乱环境、密集交通遮挡、近似场景和整个Freiburg数据集下的Precision-Recall图，可以发现本文的算法取得了最佳的效果。其中4096表示的是场景描述的维度。

图5 可视化展示本文算法在一些复杂感知环境下的定位结果
在这里插入图片描述
表1 本文算法的耗时情况，可以发现本文算法的效率较高，能够进行实时视觉定位。