ImVoteNet(CVPR 2020)
点云数据和图像数据的互补性表达:
Additionally,images can cover “blind regions” of active depth sensors which often occur due to reflective surfaces. On the other hand, images are limited in the 3D detection task as they lack absolute measures of object depth and scale, which are exactly what 3D point clouds can provide.
创新点:
- 将2D图像特征融合到3D点云特征的方法,2D 霍夫投票到3D 霍夫投票策略
- 针对多任务,定义不同特征不同的权重,用梯度混合策略,使用3个并列的分支,在测试中可去掉两个单独分支保留混合分支,保证测试速度。
在2D霍夫投票特征和3D点云特征对齐中,几何特征设计了很多坐标系的转换,其中设计了摄像机的内参和外参,2D投票映射中无法包含3D深度信息,除去伪3D投票信息外还包含了一个射线信息(即角度)。
推荐博客:https://blog.csdn.net/dsoftware/article/details/104193310
MLCVNet: Multi-Level Context VoteNet for 3D Object Detection(CVPR 2020)
分别对于VoteNet的三个层次提出了三个self-attention的聚合上下文信息的模块:
patch-to-patch context (PPC) module, object-to-object context (OOC) module and the global
scene context (GSC) module. 效果有明显替身。
3DSSD(CVPR 2020)
F-FPS
这是我认为本文最重要的一个贡献,该贡献解决了前景点采样点(representative points)少的问题。解决方式也很巧妙,在FPS的过程中,除了使用点与点之间的距离,还加入了feature与feature的距离。该方式的加入使得采样点中前景点的数量更多了。具体效果也在Table 2中做了比较。
值得注意的一点是,作者并没有完全使用F-FPS,而是使用了D-FPS与F-FPS的结合,两者均取一些点,然后将两者采样的点合起来。这样做是为了在训练过程中引入足够的负样本。
在pointnet++中主要包含两个模块,一个是SA模块,一个是FP模块,FP模块类似下采样之后的上采样,所以比较耗时,所以作者想去掉FP的过程,但是直接去掉效果明显变差。所以在采样点中下功夫,为了得到更多的前景采样点,提出了F-FPS,基于特征距离的采样。
CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection (arxiv Kitti top 1)
从下图可以看出该网络经历了三个主要的阶段(1)2D和3D的目标检测器分别提出proposals(2)将两种模态的proposals编码成稀疏张量(3)对于非空的元素采用二维卷积做对应的特征融合。
End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection(CVPR 2020)
提出CoR(Change of Representation)模块,针对voxel-base和raw-points两种类型的检测器,分别设计了各自的可微特征转换模块,对深度图和点云这两种不同的特征进行转换。针对voxel-base的网络,进行soft量化,使其在计算的过程中有更多的计算梯度的样本(2D中比较常见);针对raw-points检测器,进行子采样,由深度图到点云,是从密集到稀疏的过程,需要下采样。