【论文复现】PointPainting: Sequential Fusion for 3D Object Detection论文学习及复现

论文学习

(1)摘要

camera和lidar都是自动驾驶领域很重要的传感器。但是,通过在几个主要的benchmark数据集上做实验发现,基于lidar的方法要优于基于lidar和camera融合的方法。在这篇论文中,作者提出了pointpainting,这是一个序列化的融合方法,可以用来解决这个问题。pointpainting通过将lidar的point投射到基于图片的语义分割网络中,并且将每一个类别的分数添加到每一个点上。实验结果表明,在三个不同的点云目标检测方法 Point-RCNN, VoxelNet和PointPillars上,使用KITTI和nuScenes数据集都可以得到好的效果。同时,作者还研究了pointpainting这种融合办法的效果与语义分割输出的质量和形式之间的关系,以及在执行pipeline的时候怎样最小化延迟。

(2)introduction

图片和点云作为物体的两种不同表现形式,可以呈现出来物体的不同特征,比如图片可以反映物体的颜色以及质地texture,点云就可以呈现一个很精确的范围以及深度等。所以在检测的时候有必要将两个结合在一起。
近几年出现了一些融合方法,MV3D和AVOD等等,但是实验发现,这些融合方法在PointPillars,VoxelNet和STD这些目标检测方法上表现的还是不如不使用融合,单纯使用lidar表现的好。这是不是意味着lidar使得视觉变得多余了呢,答案肯定是否定的。
这张图可以看到,左边的图片上的行人和杆子,在右侧的点云图上,其实是很难分辨出来的。所以单纯靠lidar的点云信息去识别物体是不够的。
在这里插入图片描述
在目前fusion精度低的可能原因时,作者认为可能是数据处理的视角不一样,在lidar-based的SOTA的方法中,基本上都是在BEV的视图上进行的,但是在Image视图却是在front视图。lidar数据很容易转化为BEV视图信息,但是Image却不容易,也不精确。因此作者认为fusion的核心问题在于将BEV视角和camrea信息融合。
之前的融合方法大致可以分为这几类:以物体为中心的融合object-centric fusion,连续的特征融合continuous feature fusion,显式转换explicit transform和 detection seeding。
大概介绍一下这几种融合方法。
object-centric fusion:MV3D和AVOD是两个典型。这是一种two-stage的架构,融合是发生在proposals level阶段。
continuous feature fusion:

  • 13
    点赞
  • 84
    收藏
    觉得还不错? 一键收藏
  • 22
    评论
评论 22
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值