论文题目:Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion
飞步科技 cvpr2022 kitti 3d目标检测排名第一 可以看看
文章主要是多传感器融合的目标检测
文章不难理解,引入了一些新的我之前没有关注过的操作(可能还是融合的文章看的太少了)
文章分为两个分支,首先是lidar分支 这里主要采用了voxel rcnn的rpn来提取roi。
image和lidar通过转换矩阵,对于pixel进行深度填充得到伪雷达图,随后将lidar得到的roi进行Color Point Convolution:
如图所示,对于roi中每一个伪点云点,寻找它们的临近点,随后进行conv:首先对于位置进行编码:
将每一个点编码成:(xi−xik, yi−yik, zi−zik, ui−uik, vi−vik, ||pi−pik||)的形式,这个临近点的寻找主要是将roi内的点投影到image中进行的临近点搜寻,具体的搜寻算法文章没有给出。
随后与feature点进行编码后相乘得到weighted的feature 进行拼接,而后进行FC操作得到包含了临近点信息的该点的feature。
最后将该编码后的roi vox成6X6X6的形式与lidar分支中提取出的roi进行一个融合:
这里我们需要注意的是作者还引入了一个对于多模态feature增强的操作,其实就是将image投影到与lidar真实点云对齐的坐标后进行的点云的传统数据增强,只不过后面进行cpconv操作时是将伪点云投影回原来的image进行临近点搜寻,而后进行特征聚合。
效果挺好 没有开源 可以开源后看看代码。
总的来说 特征的聚合发生在image分支