本文介绍一篇点云物体检测的文章。与当前大部分只从3D点云得出检测结果的算法不同,文章提出的算法,不仅使用3D点云,还使用了对应的2D图片的相关信息(2D物体几何坐标、类别、feature等)。2D与3D结合后,性能得到了一些提升。论文地址:
ImVoteNet: Boosting 3D Object Detection in Point Clouds with Image Votesarxiv.org1. 核心思想
充分利用2D图片中的几何坐标、语义、像素纹理信息,来辅助3D点云物体检测。
2. VoteNet回顾
这篇文章,可以认为是VoteNet的升级版。这里先对VoteNet进行简单的介绍回顾。
VoteNet以点云作为输入,输出预测出来的物体类别、bounding box信息。其网络结构图如下:
大概流程为:
- 输入点云:
- 使用一个backbone network(PointNet++)下采样出
个点并计算出每个点的feature。论文中把这些点称为Seed点。每个Seed点的feature的长度是,加上点的坐标,输入为:
- 用一个共享的MLP计算每个点Vote出来的中心点的结果,输出同样为
。其中,表示每个点vote出来的“该点所属物体的中心点的位置坐标“,表示每个点vote出来的“该点所属物体的中心点的feature“。具体操作上,是先vote出来所属物体中心点的坐标和feature,相对于该点的偏移量,然后根据偏移量,计算出最终的坐标和feature。
- 用FPS从
个点中采样出个点。分别以个点为圆心,为半径,找出个球体范围内的点,分别为: