题目:PI-RCNN: An Efficient Multi-sensor 3D Object Detector with Point-based Attentive Cont-conv Fusion Module
发表会议:AAAI2020
论文链接: https://arxiv.org/pdf/1911.06084
发表单位:浙江大学,阿里巴巴, Fabu Inc
简介:主要提出 Point based Attentive Cont-conv Fusion(PACF) 模块 包括 Continuous Convolution, Point-Pooling 和 Attentive Aggregation等组件,实现三维激光数据和图像的融合
Motivation
由于Continuous convolution的缺点:BEV-format quantifies the 3D world into a pseudo image, so the neighbors search and fusion on BEV map suffers from the loss of precision(由于在融合图像和点云时,点云以俯视图形式表征,这会带来量化误及最近邻搜索引起的误差),因此本文将图像的语义特征和点云的原始点进行融合
Method
一、网络总体框架
- 图像语义分割网络获得图像的语义特征
- 检测子网络-1 从原始点云中得到目标的三维候选框
- PACF模块融合点云特征和图像语义特征
- 检测子网络-2 得到最终的三维检测结果
![812d7cd6bb9c7a1dbf751c3cf9db8ce9.png](https://i-blog.csdnimg.cn/blog_migrate/7ed505deca8e7721c0eaf5f9adfd6b91.jpeg)
该网络在训练的过程中首先训练语义分割网络,然后固定语义分割网络参数训练三维目标检测网络
二、PACF模块具体示意图
1)对于点云上的每一个点搜索K个近邻点
2)根据标定参数,将K个近邻点投影到语义分割特征图上
3)将检索得到的图像语义特征、学习得到的点云特征和点云位置关系串联
4)利用attentive continuous convolution融合3)中的串联特征
5)将3)中的串联特征Pooling并与4)得到的特征串行连接
![2c22907ccd1742cd6af1776596309fe2.png](https://i-blog.csdnimg.cn/blog_migrate/4798141e638e76514204bba7e6c78e72.jpeg)
Experiments
在KITTI测试集上的训练结果,语义分割网络使用的是UNet,三维目标检测网络使用的是PointRCNN
![0ea9d5d2dd5e2dc5c618cc0d20b32f67.png](https://i-blog.csdnimg.cn/blog_migrate/08df54cf935be302d8d35ac2c261d9c9.jpeg)
Ablation Study
1、最近邻点数的选择 K=3更佳
2、选择原始的激光特征or选择网络中间层的激光特征:选择网络中间层的激光特征更佳
3、输入语义特征的维度:多维更佳
4、预训练语义分割网络or端到端训练:预训练语义分割网络更佳