【论文复现】PointPainting: Sequential Fusion for 3D Object Detection论文学习及复现

最新推荐文章于 2024-08-16 08:02:27 发布

精致又勤奋的码农

最新推荐文章于 2024-08-16 08:02:27 发布

阅读量4.9k

点赞数 13

分类专栏：非网络安全论文学习

本文链接：https://blog.csdn.net/qq_38391210/article/details/108550138

版权

论文提出PointPainting，一种序列融合方法，解决lidar与camera数据融合问题，提升3D物体检测精度。通过将lidar点投影到语义分割网络，将类别分数添加到点云，改善现有融合方法的精度。实验显示在Point-RCNN, VoxelNet, PointPillars上效果显著。复现过程中遇到并解决import缺失、依赖安装和数据处理错误。" 132138273,7337247,迁移学习在多意图检测中的应用：BERT模型与槽填充,"['自然语言处理', '深度学习', '模型框架', '预训练模型', '序列标注']

摘要由CSDN通过智能技术生成

论文学习

（1）摘要

camera和lidar都是自动驾驶领域很重要的传感器。但是，通过在几个主要的benchmark数据集上做实验发现，基于lidar的方法要优于基于lidar和camera融合的方法。在这篇论文中，作者提出了pointpainting，这是一个序列化的融合方法，可以用来解决这个问题。pointpainting通过将lidar的point投射到基于图片的语义分割网络中，并且将每一个类别的分数添加到每一个点上。实验结果表明，在三个不同的点云目标检测方法 Point-RCNN, VoxelNet和PointPillars上，使用KITTI和nuScenes数据集都可以得到好的效果。同时，作者还研究了pointpainting这种融合办法的效果与语义分割输出的质量和形式之间的关系，以及在执行pipeline的时候怎样最小化延迟。

（2）introduction

图片和点云作为物体的两种不同表现形式，可以呈现出来物体的不同特征，比如图片可以反映物体的颜色以及质地texture，点云就可以呈现一个很精确的范围以及深度等。所以在检测的时候有必要将两个结合在一起。
近几年出现了一些融合方法，MV3D和AVOD等等，但是实验发现，这些融合方法在PointPillars，VoxelNet和STD这些目标检测方法上表现的还是不如不使用融合，单纯使用lidar表现的好。这是不是意味着lidar使得视觉变得多余了呢，答案肯定是否定的。
这张图可以看到，左边的图片上的行人和杆子，在右侧的点云图上，其实是很难分辨出来的。所以单纯靠lidar的点云信息去识别物体是不够的。
在这里插入图片描述
在目前fusion精度低的可能原因时，作者认为可能是数据处理的视角不一样，在lidar-based的SOTA的方法中，基本上都是在BEV的视图上进行的，但是在Image视图却是在front视图。lidar数据很容易转化为BEV视图信息，但是Image却不容易，也不精确。因此作者认为fusion的核心问题在于将BEV视角和camrea信息融合。
之前的融合方法大致可以分为这几类：以物体为中心的融合object-centric fusion，连续的特征融合continuous feature fusion，显式转换explicit transform和 detection seeding。
大概介绍一下这几种融合方法。
object-centric fusion：MV3D和AVOD是两个典型。这是一种two-stage的架构，融合是发生在proposals level阶段。
continuous feature fusion：在特征图