基于YOLO的新型RGB-D融合方法对行人进行检测和3D定位

最新推荐文章于 2024-08-15 09:23:12 发布

3Ｄ视觉工坊

最新推荐文章于 2024-08-15 09:23:12 发布

阅读量5.1k

点赞数 1

文章标签：定位计算机视觉人工智能机器学习深度学习

原文链接：https://www.researchgate.net/publication/344982526_Accurate_detection_and_3D_localization_of_humans_using_a_novel_YOLO-based_RGB-D_fusion_approach_and

版权

标题：Accurate detection and 3D localization of humans using a novel YOLO-based RGB-D fusion approach and synthetic training data

作者：Timm Linder, Kilian Y, Pfeiffer, Narunas V askevicius, Robert Schirmer1, Kai O. Arras

来源：ICRA 2020

编译：姚瀚晨

审核：wyc

转载：泡泡机器人SLAM

摘要

大家好，今天为大家带来的文章是—— 基于YOLO的新型RGB-D融合方法和综合训练数据对人类进行准确的检测和3D定位。

Accurate detection and 3D localization of humans using a novel YOLO-based RGB-D fusion approach and synthetic training data.

挑战——存在遮挡的情况下在3D空间中稳固地定位对象仍然是一个尚未解决的问题；
本文的重点——实时检测RGB-D数据中的人类3D重心。

本文创新点：

提出了一种基于图像的检测方法，该方法将YOLOv3架构扩展为具有3D质心损失和中级特征融合，以利用这两种方式的互补信息；
采用了一种迁移学习（transfer learning scheme）方案；
进一步提出了一种几何上更准确的深度感知增强方法，用于训练RGB-D数据，这有助于提高3D定位精度。

贡献

在部分遮挡下进行精确的3D定位是一个尚未解决的问题，这是一个重要研究方向，例如用于机器人技术中的人体检测；
我们是第一个为快速YOLOv3单级检测器提出RGB-D融合策略的公司，并提出了一种利用现有大规模2D数据集的伴随转移学习策略；
重心区域随机化（heavy domain randomization），我们能够从合成渲染的多人RGB-D数据集中学习3D人类质心的端到端回归；
发现标准的2D裁剪/扩展增强（2D crop/expansion augmentations）不适用于深度数据，并提出了一种几何上更准确的变体，它可以解决焦距的最终变化；
在真实世界的RGB-D数据集中，我们的方法在3D人检测中优于现有的基线方法，而不需要额外的手工注释的3D ground truth进行训练。

方法介绍

传统的检测方案有三个缺点：

在局部稀疏的点云的3D目标定位上失效——我们的方法可以利用互补的RGB数据，因为它不依赖于点云表示；
多目标重叠时候，只能检测到一个目标。这种情况在我们的室内环境中很常见，行人经常部分地相互遮挡；
基于RGB-D的二维检测（RGB-based 2D detector）装置在光线条件困难的情况下失效——由于我们的中层融合策略（mid-level fusion strategy），我们的方法可以利用互补的深度数据

图1：我们的方法（绿色）定位三维人体质心

比基线（红色）的方法更加鲁棒

表I 比较了传统RGB-D相机在行人检测上的工作：

表I：量化分析RGB-D相机和3D行人检测中的相关工作

3D检测行人目标的挑战：

大多数工作都集中在刚性物体上；
行人在形状和外观上差异很大，因此在检测方面特别具有挑战性。

方法

方法总结：

用合成的RGB-D数据集学习3D行人的检测和定位；
提出一种在RGB-D数据中训练3D检测器的深度感知（depth-aware）和尺度维护（ scale-preserving）方案；
展示了我们对YOLOv3检测器的修改：混合了RGB和深度信息，回归3D质心的端到端的方式。

图2：四幅图显示了3D地面真相联合位置在我们的合成RGB-D和我们的真实世界RGB-D数据集上。后者来源于离线三维人体姿态估计，如果需要，只用于对真实世界数据进行微调。

图3：概述了我们提出的方法，它扩展了YOLOv3检测器与中层RGBD特征融合，深度感知增强和三维质心回归。我们表明，后者可以从合成的RGB-D图像中学习。

（1）对深度值进行缩放：其中，(x,y,z)是RBG-D相机中的一个3D点，z/s是缩放的深度值，(u,v)是输入的像素。

（2）是对行人中心(cu,cv,cz)的预测：其中，(cx,cy,cz)是1x1神经网络的输出值，(bu,bv)是高为bh，宽为bw像素的左上角。

主要结果

表格II是参照实验的结果：我们的合成的验证集(2个额外的场景，5k帧不同的像素)与精确的地面真相。我们使用了一半的合成训练集(7.5k帧)进行训练。在合成训练集的情况下，特别是在较小距离阈值下的三维定位得到了改善。结合RGBD融合可以显著提高三维检测精度，并微弱地提高二维检测精度。

表II：我们的合成验证集的参照实验与完美的3D ground truth。除非标注出来，在第二阶段后进行RGBD融合。

表III：在我们的真实世界测试集的60秒序列上的三维中心的精确召回曲线。实线对应的评价半径为0.5m，虚线为0.25m。十字架处在F1的高峰点。对于我们的方法，S代表合成的训练数据，R表示真实的训练数据。

图4：从RGB-D数据集的一个场景中获得了在F1峰值处的定性3D检测结果。颜色来自表III；灰色是地面真值

图5：两个距离更长，更杂乱场景的结果

点击阅读原文，即可获取本文下载链接。

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近3000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用，麻烦给个赞和在看~

3Ｄ视觉工坊

关注

1
点赞
踩
56

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。