使用稀疏 4D 卷积对 3D LiDAR 数据中的运动对象进行后退分割（IROS 2022）

最新推荐文章于 2024-04-23 17:36:39 发布

3Ｄ视觉工坊

最新推荐文章于 2024-04-23 17:36:39 发布

阅读量548

点赞数

文章标签：算法机器学习人工智能深度学习 java

原文链接：https://mp.weixin.qq.com/s?__biz=MzU1MjY4MTA1MQ==&mid=2247617157&idx=3&sn=7ddfc174ceae068e7f40789d4bebde71&chksm=fbfd21b1cc8aa8a714489e8c3401e5298cce2cc9cb6a090c372454080c06c87006ba13285a29&scene=126&&sessionid=0

版权

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者丨泡泡机器人

来源丨泡泡机器人SLAM

Receding Moving Object Segmentation in 3D LiDAR Data Using Sparse 4D Convolutions

本篇翻译/测试同学：吴奇

来源: RAL/IROS

作者：Benedikt Mersch, Xieyuanli Chen, Ignacio Vizzo, Lucas Nunes, Jens Behley, Cyrill Stachniss

Year: 2022

对于激光SLAM来说，如何在动态场景中的姿态估计一直是个难以解决的问题。现在基于激光雷达稀疏点云的物体分割算法已经有很多研究。但去除掉某一类的物体并不是解决激光SLAM在动态物体中的最优选择，停着的车、静止的墙这些才是激光SLAM定位当中真正需要观察的点云信息。本篇工作中，作者对采集到的序列点云帧构建出”后退序列滑动点云窗口“，用提出的新型的4D稀疏卷积算法，通过对采集到到的序列点云帧进行推理，预测出场景中真正移动的物体（如骑行的人）。除此之外，作者采用了贝叶斯滤波的方式，进一步提升了滤波的鲁棒性。

主要工作和贡献

提出稀疏的4D卷积方法可以提取出点云中的时空特征信息，用于分割出场景中真正运动的场景。该方法通过滑动窗口的方式，将新观测的点云信息添加到估计序列中的同时也去除掉序列中时间最久的序列帧。同时通过二元贝叶斯滤波的方式提升估计的鲁棒性。将场景中的真正静态物体保存下来。
相比于之前的方法，该方法对于估计场景中静态物体的方式更好。
对场景的适应性更好。
可以通过新的观测点云来提升预测结果。

算法总结

算法整体框架图如图所示：这里的代表的是当前时刻下观测得到的点云。

A.算法输入

将滑动窗口中的点云都对齐到当前点云帧坐标系下，构建出稠密的4D点云。这里的4D维度除了表示位置信息外，也将时间信息加到观测序列中。如公式所示。

因为激光点云过于稀疏，所以这里将4D点云通过和的方式将空间中的稀疏点云划分到稀疏体素空间下。用稀疏的tensor来表示稀疏体素，并且只将有物体的空间体素特征进行表达来提升算法的高效，让算法可以在大空间下使用。

B. 稀疏4D卷积

相比于稠密4D卷积，稀疏4D卷积的方式速度更快。作者借助Minkowski Engine工具来实现这一idea，基于MinkUNet14框架进行修改。UNet这种跳跃连接的方式来更好的保存细节和提升预测效果。相比于之前基于SalsaNext的LMNet（6.7MB）或基于RangeNet++（50MB）的实现，我们的算法仅用了1.8M内存。网络的最后一层SoftMax，对场景中的点进行二值分类，通过0,1表示场景中的点到底是否运动。

C. 后退平移策略

该方法的优势是通过新的观测来对场景中的移动物体进行重新估计，可以通过序列的方式来有效的对场景中的移动物体来进行重建估计。

D. 二值贝叶斯滤波

这里二值滤波的主要方式就是通过新观测得到的LiDAR帧来对之前不同时刻观测得到的激光点云来进行重新预测。

如公式（2）所示，这里将表示时刻下预测的结果。通过贝叶斯滤波的方式来判断出点云在时刻t下到底是否运动。

如公式（3）所示，可以通过递推的方式来判断出场景中的点到底是否运动。

在时刻t，我们通过对数的方式来输出置信度信息，判断产经中的信息是否运动。如果置信度信息大于0.5，则我们认为场景中的点运动，否则则认为场景中点没有运动。

实验结果

1. KITTI结果

算法在Semantic Kitti上测试结果如下表所示：

2. Apollo数据上测试结果：

为了验证算法的泛化性，作者用KITTI的训练结果在Apollo上训练，得到结果如下：

3. Prior在SemanticKITTI上测试

4. 可视化结果观察

实验测试

github上开源算法README已将安装过程介绍的很清楚。唯一问题需要注意的是需要的torch版本是1.10，cuda是11.3。按照此环境配置，即可复现得到论文中的结果。

训练数据集构建

其中训练数据集构建得符合Semantic KITTI要求，如下所示：

可视化效果

如果希望可视化效果，按

github issue：https://github.com/PRBonn/4DMOS/issues/9

所示，得到结果：

cd semantic-kitti-api
./visualize_mos.py --sequence 8 --dataset /mnt/data/kitti-odometry/dataset --predictions /path/to/4DMOS/predictions/ID/POSES/labels/STRATEGY/

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
 4.国内首个面向工业级实战的点云处理课程
 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

15.国内首个3D缺陷检测教程：理论、源码与实战

16.基于Open3D的点云处理入门与实战教程

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

3Ｄ视觉工坊

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用稀疏 4D 卷积对 3D LiDAR 数据中的运动对象进行后退分割（IROS 2022）

点击上方“3D视觉工坊”，选择“星标”干货第一时间送达作者丨泡泡机器人来源丨泡泡机器人SLAMReceding Moving Object Segmentation in 3D LiDAR Data Using Sparse 4D Convolutions本篇翻译/测试同学：吴奇来源: RAL/IROS作者：Benedikt Mersch, Xieyuanli Chen...
复制链接

扫一扫