产品经理眼中的SLAM技术学习路径

最新推荐文章于 2023-05-21 14:19:25 发布

3Ｄ视觉工坊

最新推荐文章于 2023-05-21 14:19:25 发布

阅读量985

点赞数

文章标签：定位人工智能编程语言计算机视觉大数据

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

背景

自动驾驶圈也有很多“黑话”，他们是算法蔑视、戏耍产品经理的金箍棒；是测试忽悠、蒙骗产品经理的芭蕉扇。

自动驾驶技术的深奥及飞速革新导致多数自动驾驶产品经理无法胜任定义自动驾驶核心功能的重任（这部分工作目前多数由自动驾驶团队的博士大牛担任），转而去负责自动仿真平台、车队管理平台、人机交互策略等一些弱自动驾驶、强互联网产品功能。

团队博士大牛适合领导自动驾驶团队进行算法能力建设，快速带领团队建立行业竞争壁垒，但并不适合自动驾驶未来大规划的商业化落地。自动驾驶产品经理应当知耻而后勇，不断进取，早日建立起承担大规模商业化落地所需担负的职责。

基于此背景，作者从产品经理的角度去分享自动驾驶行业一些晦涩难懂的“黑话”，分享中学习，学习中分享，错误在所难免，欢迎不吝指出。

本期我们不介绍上至80老太、下至8岁孩童可能都已经熟知的自动驾驶“感知”、“定位”、“规划”、“控制”几大模块，俗话说擒贼先勤王，我们从理论最难、实现最复杂的SLAM介绍起。

一位友人从算命先生那得到了一条SLAM学习路径：C++ -> Linux -> ROS -> 数学 -> SLAM -> 嫩模，并暗自许下“不破楼兰终不还”的壮志，我是充分理解他的学习动力的。但是，一个月后，友人和我抱怨说：“SLAM是我这辈子学过的最难的知识了，楼兰（Young Model）无望了”。

用户故事

产品经理的需求来源于故事，我的故事场景是：你一觉醒来，发现身边的钢筋水泥消失了，映入眼帘的是古色古香的一道大门，上书三个大字“女儿国”，你既慌张又有一丝窃喜。

慌张我在哪，我该往哪里去，窃喜往哪里去应该都不会太差。语言不通，你又无法求助路旁跳肚皮舞的小姐姐。没有办法，你只能沿着女儿国的道路前进，并努力去熟悉、记住这个陌生的环境。

走完一圈，你回到起点，擦了擦哈喇子，慌张没有了，只剩下窃喜。这简直是人间天堂，全是貌美如花的姑娘和对陌生男人的好奇眼神。

不巧，这个时候你的肚子咕咕叫了两声，你突然意识到走了这么多路，有点饿了，得找个地方饱餐一顿。你回忆起刚才路过的名叫“东北一家人”的客栈貌似装修、环境都不错。你凭着刚才的记忆，以及一些指示牌，很快找到了那家客栈。

解决方案

解决陌生环境定位和地图构建问题用的就是SLAM（Simultaneous Localization and Mapping）技术。

人通过双眼和耳朵去熟悉陌生的环境，并在逛完一圈回到起点后即在大脑里形成一幅大致的环境地图。同样机器在未知环境中，通过自身传感器在第一次运动过程中去采集陌生环境中的场景信息并生成一张地图。下次我再走到相似的位置时，传感器采集到的数据去和我记忆里的地图对比，相似度达到一定概率，机器就知道我现在在哪里了。

SLAM比较专业的解释为：机器从未知环境的未知地点出发，在运动过程中通过传感器重复观测到的环境特征定位自身位置和姿态，再根据自身位置构建周围环境的增量式地图，从而达到同时定位和地图构建的目的。SLAM按实现传感器来分，主要包括激光SLAM和视觉SLAM两大类，本文侧重介绍激光SLMA。

产品功能

SLAM在室内机器人和开放道路自动驾驶车辆两个典型应用场景所需要实现的功能并不相同，最典型的区别是室内机器人几乎可以去工作空间任意没有障碍物的地方，没有什么限制；而自动驾驶车辆要遵循复杂的道路交通规则，虚线可变道，实线不可变道，这导致两者在建图方式和最终生成的地图格式上都有所不同。

室内机器人以商超商用清洁机器人为例，开放道路自动驾驶车辆以城区主干道行驶的RoboTaxi为例。

一

扫描地图

对于商超场景，机器人只须在室内有限区域内实现导航，而无须知道自己在物理世界的经纬信息，因此商超清洁机器人的扫图只需要一个8/16线的低线束主激光，结合惯导即可实现扫图工作。主激光提供场景深度信息，惯导结合码盘，提供基本的移动信息。

由于惯导的工作原理，连续扫图下来会有累积误差，因此后续需要进行闭环检测。对于空间特征不明显的场景，还可以加配相机，提高扫图的质量。

对于开放道路场景，RoboTaxi需要从地图里知道自己在哪条车道，所在车道的类型（左转、右转、直线、应急、公交），旁边车道的类型，两条车道线之间是虚线还是实线，交通标识（限速标识、急转弯标识等），人行横道等信息。因此单纯依靠激光传感器没法定位物理世界经纬度，至少需加上高精度GNSS。

高精度GNSS在立交桥下，涵洞内，密集高楼旁等遮挡比较严重的地方又会出现定位漂移，因此融合IMU的高精度组合导航，高线束扫图激光成为开放道路激光SLAM建图的硬件标配。

二

地图类型

机器人所用的地图绝大多数为栅格地图，所谓栅格地图，即是将地图离散化为一个个小的栅格，每个小栅格可代表三种状态：占用、空闲、未知。这样所有的栅格组成的一张图就可以代表可通行区域（白）、障碍物区域（黑）和未知区域（灰）。

RoboTaxi的行驶场景注定它无法简单的使用只有三种状态的栅格地图，必须在栅格地图上体现更多的交通规则信息，就是现在异常火爆的高精度地图。高精地图是一类定位精度达到厘米级，其中包含了驾驶辅助信息（车道类型、交叉路口布局及路标位置等）及语义信息（限速信息、斑马线位置及车辆转弯开始位置等）。

三

地图处理

机器人栅格地图

机器人扫描地图完成后，由于传感器本身及环境的噪声，地图通常需要经过处理后才能正式生成机器人可用的栅格地图。

（a）噪点处理

扫图过程中不可避免的会存在移动障碍物（行人、手推车等），扫图完成会在栅格地图上呈现不可通行的黑色噪点区域，这部分区域需要人工恢复至可通行区域，以便导航功能正常；多数激光无法识别玻璃，导致多玻璃墙的场景，玻璃后面会被识别为可通行区域，这部分也需要人工处理为未知区域，以免发生撞玻璃问题。

（b）重影处理

典型的重影表现为实际环境中的一面墙在地图里变成了两面平行相近的墙，可能的原因有激光运动畸变、闭环不成功问题、激光精度问题等。重影会影响导航与定位。理想的情况是可以通过后期的算法处理掉重影，不理想的情况下只能从头开始扫图了。

（c）闭环检测

闭环检测，是指机器人在扫图过程中，判断当前区域已经来过，从而将当前区域扫描地图与之前扫描地图进行匹配，达到闭环的目的。但是，由于传感器本身及周围环境噪声的存在，下一次机器人再路过相同的局域时，极有可能发生“梦里寻她千百度，蓦然回首，却不相识”的尴尬。

没有闭环检测或闭环错误，会导致地图信息错误，实际使用时会在闭环不正常的附近发生较大的定位偏移，甚至定位丢失无法找回。提高闭环检测成功率一方面可以选择特征明显的起点和终点进行闭环匹配，另一方面可以通过优化算法去提高噪点过滤能力，特征匹配能力，提高闭环成功率。

RoboTaxi高精地图

高精地图从定义上就可以看出后期需要处理的东西太多，主要包括数据标注、动态障碍物去除，地图拼接等处理。

（a）数据标注

激光SLAM方式生成的栅格地图，不具有驾驶辅助信息及语义信息，因此需要对激光点云数据进行标注，增加车道类型、交叉路口布局及路标位置等驾驶辅助信息以及限速信息、斑马线位置及车辆转弯开始位置等语义信息。目前标注仍以人工为主，因为场景数据无法完全体现人为规则，比如上海的高架，你外地牌照和沪C牌照在一天中可通行的时间段是不一样的，这些信息场景数据里无法体现，只能通过人工标注添加。

（b）动态障碍物去除

高精地图里我们只需保留静态的物体，对于扫图过程中生成的动态障碍物，我们需要从地图中去除。去除静态障碍物可以先用概率模型，然后利用点云数据进行离线处理。当然高级的方案是利用机器学习，将识别到的点云进行分类，删除掉属于动态障碍物的类别。

（c）地图拼接

对于开放道路场景，地图的采集不可能一次完成，因此，存在需要将不同时间段栅格地图数据校准到一起的问题。简单来讲，通过对不同时间段栅格地图建立点和边的约束，从而拼接得到所有时间段的栅格地图相对正确位置，这个时候我只要知道一个点的准确位置，就能得到整幅栅格地图的准确位置。

四

定位功能

建立了场景地图，剩下的就是根据地图实现自身的定位，这也是SLAM第二大功能了，作者写到这时已经有点消化不良，详细的定位原理，我们只能下回详解，这里只先做简单介绍。

机器人在商超场景中的定位功能包括：定位初始化，定位更新。定位初始化是指在机器人初始位姿不确定的条件下，利用局部的、不完全的观测信息估计机器人的当前位姿。初始化时尽量选择特征明显，稳定可靠的起始点。定位更新是指在已知机器人初始位姿的条件下，结合本体运动模型，通过将观测到的特征与地图中的特征进行匹配，求取它们之间的差别，进而更新机器人位姿的定位方法。

RoboTaxi在城市开放道路的定位分为空旷区域和有遮挡区域，空旷区域就是高精度GNSS，短暂遮挡区域，可以利用IMU结合里程计信息进行定位补偿，长期遮挡区域，可以利用激光或相机进行辅助定位。总而言之，多传感器融合定位。

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。