IROS 2021 | 相机数据转化为2D激光伪标签的自监督学习行人检测

点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

368f6b1f941d0be1a4f4598f1baa6156.png

作者丨泡泡机器人

来源丨 泡泡机器人SLAM

标题:Self-Supervised Person Detection in 2D Range Data

using a Calibrated Camera

作者:Dan Jia, Mats Steinweg, Alexander Hermans, and Bastian Leibe

机构:RWTH Aachen University

来源:IROS2021

编译:姚瀚晨

审核:滕瀚哲 朱虎 张海晗

10ab7d99455d826d8a2391d2f39746fd.png

摘要

4c49ebf814f3eaadf664a8460fe7dd5d.png

大家好,今天为大家带来的文章是Self-Supervised Person Detection in 2D Range Data using a Calibrated Camera,相机数据转化为2D激光伪标签的自监督学习行人检测。

深度学习成为了提升检测器性能的重要工具。无论是激光检测器或者是视觉检测器,数据集的数量和质量是影响基于深度学习的检测器性能的关键。

图1所示,尽管有大量视觉数据集,但严重缺少带注释的2D激光数据集。为了克服训练数据不足所带来的限制,本文探讨在缺少带注释的数据集下,如何使用视觉数据集生成2D激光雷达伪标签,从而改善在激光雷达检测器训练时缺乏数据集的难题。

参考论文:

[1] D. Jia, M. Steinweg, A. Hermans and B. Leibe, "Self-Supervised Person Detection in 2D Range Data using a Calibrated Camera," in 2021 IEEE International Conference on Robotics and Automation (ICRA), pp. 13301-13307, 2021. doi: 10.1109/ICRA48506.2021.9561699.

7200cd9de990576fbdf710cde1bffb97.png

图1:目前只有很少的带有行人注释的 2D LiDAR 数据集,而大部分数据集是给视觉检测器训练用的。通过使用视觉数据集生成伪标签来训练基于2D LiDAR的行人检测器。 

*:数字是根据训练集的行人数量统计的。

7574f9b8845c475d9d08a9f8d00c252f.png

主要工作与贡献

a816403dea082674e50ee10c488b10b3.png

  • 利用基于图像(视觉)的检测器的输出和已知的外部相机校准,提出了一种自动生成伪标签的方法,用于训练基于 2D LiDAR 的行人检测器。

  • 我们证明了生成的伪标签可用于训练或微调行人检测器,尝试使用神经网络训练来进一步提高性能。

7906c09b98f94ec3e5b87347cb98d7f4.png

算法流程

d0327ee7ba9643808b496b6b1ba3aefc.png

1. 相关工作

监督学习方法需要付出巨大的成本来手动收集和注释数据。许多研究尝试自动生成标签以减少所需的成本。例如,Leigh 等人通过将 2D LiDAR 放置在行人拥挤的开放环境中来生成正样本,并通过在没有人的环境中移动 LiDAR 来生成负样本。这种方法将训练样本限制在几个简单的场景中,不能适应机器人搭载的动态数据收集。Aguirre等人使用带有校准 RGB-D 相机的 Mask R-CNN自动标记 2D LiDAR 扫描以进行行人检测。但没有对标签的准确性进行评估。该方法还依赖 RGB-D 相机的深度测量,从而增加了额外的传感器要求。另外,3D LiDAR 也已尝试自动生成标签。Piewak等人和Wang等人的训练点云分割网络,使用匹配像素上的分割结果作为监督。

在这项工作中,使用校准的 RGB 相机和基于图像(视觉)的行人检测为基于2D LiDAR 的行人检测器自动生成训练数据。与Leigh 等人的工作相比,本方法的伪标签是动态生成的,不依赖于环境的特定条件。与 Aguirre等人的工作不同,本方法在普通 RGB 相机上运行,不需要对图像进行高成本的分割或传感器之间的像素精度校准。我们进行了大量的实验来分析伪标签的质量,并通过经验证明本方法可以帮助训练最新的行人检测器。

2. 生成伪标签

本方法首先使用对象检测器(例如 Faster R-CNN)来获取人员边界框。从所有边界框中,使用以下约束挑选目标子集:

  • 分类分数(classification score):大于阈值 Tc; 

  • 宽高比(aspect ratio):宽度和高度之间的比率,小于 TAR; 

  • 重叠率(overlap ratio):与任何其他边界框小于To。重叠率定义为相交面积除以框的面积。

方法:

给定一个选定的边界框,本方法估计行人在 LiDAR 坐标系中的中心位置 (px,i, py,i)。利用已知的相机校准,我们将 LiDAR 点投影到图像上,并提取落在边界框下半部分内的点(因为 LiDAR 安装在下半身的高度)。这些点要么对应于一个人,要么对应于背景(图 2)。为了定位这个目标行人,我们首先在 k = 2 的范围空间中运行 k-means 聚类,它将点分组为近距离和远距离聚类。本方法将紧密聚类近距离中点的平均 2D 位置作为初始估计,并且使用半径为 0.5 m 的圆形内核的均值偏移过程迭代地优化此估计。均值偏移结果用作估计的行人位置。该方法假设行人属于场景的前景,并且是裁剪后的 LiDAR 扫描中的主要对象。

90d1311d5cca1c24c3976d228c9e3987.png

图2:行人检测和匹配伪标签 (+) 的自上而下视图与周围的 LiDAR 点(在 0.5m 半径内)。LiDAR 点覆盖在检测图像中,其中颜色编码表示测量的距离,红色表示最近,白色表示最远。底部两行展示了一些失败案例:重度遮挡(第 1-2 列);背景干扰(第 3-4 栏);远处的稀疏 LiDAR 点(第 5 栏);以及传感器之间的错误校准或同步(第 6 列)。

数据集:

数据集包括来自 Faster RCNN 检测器的人员检测,我们将其用作伪标签生成方法的输入。使用包含的 RGB 图像可以应用其他检测器,使我们能够进一步提高标签质量。为了生成伪标签,我们使用 Tc = 0.75、TAR = 0.45 和 To = 0.4。

JRDB 不提供训练验证拆分,并且测试集注释不公开。因此,我们拆分了自定义的数据集。我们将原始训练集的 27 个序列拆分为 17 个用于训练的序列和 10 个用于测试的序列。我们的训练测试拆分在行人检测难度(使用预训练的 DROW3 检测器评估)和场景属性(室内与室外)方面取得平衡。

为了评估我们的伪标签的质量,我们通过将使用伪标签生成的分类目标与使用地面实况(ground truth)注释生成的目标进行比较来计算使用伪标签生成的分类目标的真阳性率和真阴性率(TPR,TNR)。超过 90% 的训练样本被正确标记(见表1),表明伪标签的有效性伪标签的定性结果如图 3所示。在大多数情况下,尽管行人在不同的距离或具有不同的姿势,行人的位置在室内和室外环境中都能成功估计。常见的识别错误案例包括基于遮挡的物体、与背景融合的行人、远距离的稀疏 LiDAR 测量或传感器之间的错误校准。这些情况会导致噪声很大的标签,我们通过使用鲁棒的训练损失来处理。

c2db5701b3ccbd0a894aed9f2fe90553.png

表1:训练分割数据集中伪标签的准确性。

f746f5dfb56718350d54e0a3fe99bf44.png

实验结果

e3a37367f096989f51610bd5c9856c6b.png

分析伪标签的距离分布。如图 3 所示,它与注释类似。伪标签不会引入任何可能错误样本的距离偏差。由于JackRabbot 数据集中离机器人太近的行人双腿在摄像头的视野之外。因此,在1米距离内无法生成伪标签。

0a0972b45b36bd7f134169266d381d31.png

图 3:伪标签和注释的距离分布。伪标签具有与注释相似的距离分布,并且不会引入距离偏差。

本文公开了测试数据集的平均精度(AP0.3 和 AP0.5)(见表 II)。如果在 0.3 m 或 0.5 m 范围内存在 ground truth,则认为检测结果为正,并且 ground truth 只能与单个检测结果匹配。作为基线,我们评估了 [4] 中发布的 DROW3 和 DRSPAAM 模型,该模型在 DROW 数据集上进行了训练。与在 JRDB 上训练的网络相比,这些预训练网络的 AP 显着降低,这证实了我们最初的猜测,即在单个数据集上训练的网络可能无法很好地推广到新环境或不同的 LiDAR 模型。预训练的 DR-SPAAM 尽管在 DROW 数据集上得分更高,但表现比 DROW3 差,显示了过拟合的效果。使用伪标签训练的网络受益于与测试数据的较小域差距,优于预训练网络,证明了我们方法的有效性。从预训练模型开始提高了伪标签的检测器性能,但对 3D 注释没有明显的改进

[4] D. Jia, A. Hermans, and B. Leibe, “DR-SPAAM: A Spatial-Attention and Auto-regressive Model for Person Detection in 2D Range Data,” arXiv:2004.14079, 2020.

7500dfe464d8a2e1df49ab055d1ff2ce.png

表2:使用不同监督训练的 DROW3 和 DR-SPAAM 的性能。

伪标签和注释之间的性能差距可能是由两个因素造成的:标签噪声和较少的训练样本。为了研究标签噪声的影响,我们额外训练了带有伪标签的网络,同时删除了错误标记的点并使用地面实况注释纠正了回归目标(见表3)。假阳性和假阴性都会降低检测器的性能,后者对 DROW3 有很大的影响。修正回归目标提高了两个网络的 AP0.3,特别是对于更强大的 DRSPAAM。清理伪标签显着提高了检测器的性能,表明标签噪声是伪标签和注释之间性能差距的更主要原因。由于训练样本数量减少,使用干净伪标签训练的检测器比使用注释训练的检测器低 2% 左右。使用预训练模型进行微调进一步缩小了这种性能差距。

3ae99f63e5bf6894f520409628c3091c.png

表3:使用不同的伪标签变体训练的DROW3和DR-SPAAM 的性能

为了减轻标签噪声引起的问题,我们尝试两种鲁棒的训练方法部分 Huberized 交叉熵损失(partially Huberized cross-entropy loss)和混合正则化(mixup regularization)(见表4)。两种方法都提高了网络性能,除了在 DRSPAAM 上单独应用混合(可能是由于超参数不理想)。结合鲁棒的训练方法,使用伪标签训练的检测器在很大程度上优于预训练的检测器,并且在不使用任何标记数据的情况下达到了接近使用注释训练的性能。伪标签提供了一种将行人探测器调整到新环境或 LiDAR 模型的有效方法

df33ff70af7edd1073eaacae96ae05cf.png

表4:使用伪标签和鲁棒训练方法训练的 DROW3/DR-SPAAM 的性能

不同微调阶段的检测器性能如图 4 所示。当数据在整个训练分割中打乱时,网络性能显着提高,从预训练的 70.8% AP0.5 提高到 74% 以上,使用少于100个更新。这种快速的性能提升意味着,即使在计算量不足以进行完整训练的应用程序中,仍然可以通过使用伪标签运行少量更新来调整检测器并提高其性能。然而,具有足够多样性的精选训练样本是一个关键的先决条件,因为当数据仅在每个序列内进行混洗时,会观察到波动的性能。尽管在大多数情况下,检测器受益于微调(具有比预训练检测器更好的性能),但有些对抗样本会导致性能显着降低。使用注释进行微调也存在相同的波动行为,这表明这是网络训练的先天问题,而不是由伪标签引起的。

6cee5b9ee378aa374d4848ec02bc1417.png

图4:微调(fine-tuning)具有部分 Huberized 交叉熵损失的预训练 DROW3 检测器的不同步骤的性能。数据在整个训练集或每个序列中被打乱,模拟不同数量的数据集。对于不同的批次,即使只有少量更新,检测器的性能也会显着提高。使用默认训练计划进行更长时间的微调,伪标签和注释的 AP0.5 分别为 79.2% 和 82.3%。

点击阅读原文, 即可获取本文下载链接。

本文仅做学术分享,如有侵权,请联系删文。

干货下载与学习

后台回复:巴塞罗自治大学课件,即可下载国外大学沉淀数年3D Vison精品课件

后台回复:计算机视觉书籍,即可下载3D视觉领域经典书籍pdf

后台回复:3D视觉课程,即可学习3D视觉领域精品课程

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

3da09e411eb459e11f3811a45fb17ae5.png

▲长按加微信群或投稿

5171489b4d8823edd887d3e8c0714cd7.png

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近5000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

d73c3ebdf0d5940b51f22df18f9d45f5.png

 圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  cd1c1fd2cb959ab46d90d1b038728d50.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值