点击上方“3D视觉工坊”,选择“星标”
干货第一时间送达
来源丨黄浴
作者丨计算机视觉深度学习和自动驾驶
arXiv论文“FUTR3D: A Unified Sensor Fusion Framework for 3D Detection“,来自复旦、CMU、MIT、Stanford(李想汽车工作)和清华。
传感器融合是许多感知系统中的一个重要课题,例如自动驾驶和机器人技术。现有的多模态3D检测模型通常涉及定制设计,具体取决于传感器组合或设置。这项工作,是一个统一的、用于3D检测、端到端传感器融合框架FUTR3D,它可以用于(几乎)任何传感器配置。FUTR3D采用了一个基于查询的不可知模态特征采样器(Modality-Agnostic Feature Sampler,MAFS),以及一个具有用于3D检测的集合-集合损失函数的transformer解码器,从而避免后融合的启发式方法和后处理等。在摄像机、低分辨率激光雷达、高分辨率激光雷达和雷达的各种组合上验证了该框架的有效性。FUTR3D通过不同的传感器配置实现了极大的灵活性,并实现了低成本的自动驾驶。
如图所示:FUTR3D可用于任何传感器配置,包括2D摄像机、3D激光雷达、3D雷达和4D成像雷达。
如图是FUTR3D的概述:每个传感器模态使用模态特定的特征编码器在其自身坐标中单独编码。然后,基于查询的MAFS根据每个查询的3D参考点从所有可用模态中提取特征。最后,transformer解码器根据查询预测3D边框。预测框可以迭代地反馈到MAFS和transformer解码器中,以优化预测。
对于激光雷达点云,用VoxelNet(0.1m体素大小)或0.2m柱大小的PointPillar对激光雷达点云进行编码。在3D主干和FPN之后 ,获得多尺度BEV特征图。
采用N个雷达点向量,即位置、速度和强度。采用MLP编码得到雷达特征。
用ResNet和FPN进行环视多个图像的特征提取,为每幅图像输出多尺度特征图。
融合的insight是这样的:在不同的模式中,目标属性并不是同样可识别的。因此,寻求利用不同的模式,并从中提取补充信息。从所有模式中采样点特征后,融合特征并更新查询。
首先,将所有模式的采样特征连接起来,并使用以下公式给出的MLP网络对其进行编码:
其中
这里,MAFS通过线性变换和sigmoid归一化,从每个目标查询中解码3D参考点如下
查询更新:
采用自注意机制建模查询中的交互,这样:
采用迭代细化边框的方法:
损失函数中,计算预测和真值之间的一对一损失,这涉及两个步骤:首先,用bipartie-matching在预测和真实边框之间执行一对一匹配。然后,在一对一匹配的情况下,计算回归损失和分类损失。特别是,一对一配对问题可以通过Hungarian算法来解决。
实验结果如下:
nuScenes数据中有环视摄像头6个,激光雷达采用32线,做仿真模拟可生成4线数据,从笛卡尔坐标转换到极坐标进行,然后在pitch角度采样,其坐标转换公式如下:
另外,5个雷达数据聚合在一起,成为200-300点云。
左:1-线 LiDAR + cameras, 中:4-线 LiDAR + cameras,右:32-线 LiDAR + cameras
本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊精品课程官网:3dcver.com
2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~