ECCV 2020|3D-CVF多模态融合(LIDAR+CAMERA)

3D-CVF: Generating Joint Camera and LiDARFeatures Using Cross-View Spatial FeatureFusion for 3D Object Detection
(point-wise)

1.摘要+intro
作者提出的问题是从相机图像和LiDAR点云获得的特征是以不同的视角(即相机视角和3D世界视角)来表示的。当相机特征被投影到3D世界坐标时,可能会丢失关于目标的一些有用的空间信息(本身应该是1 to 1,1 to 多,例如应该是相机手对点云的手,脚对脚,那么1to多时排列顺序就乱了),因为该转换是一对多的映射。作者提出了一个称为3D-CVF的网络来解决这个问题。信息融合分成了两个阶段
第一个阶段 首先为了生成强的相机-LIDAR联合特征,提出自动校准特征投影,使用能够校正空间偏移的插值投影将相机视图特征映射到平滑和密集的BEV特征地图。作者又发现了个坑,由于相机特征映射是一对多映射,所以不能在投影后的相机特征图上定位对象,使用了自适应门限融合网络解析出BEV域中的目标区域。
在第二个阶段,基于第一阶段的相机-LiDAR联合特征图找到ROI后,采用基于三维感兴趣区域(ROI)的池化方法,将低层LiDAR和相机特征与相机-LiDAR联合特征图进行融合。其中对应于3DROI框的LiDAR和照相机特征是由PointNet编码器pooling和编码。编码特征与相机-LiDAR联合特征的聚合来实现proposal的refinement(求精)

2.method
网络结构overview:
在这里插入图片描述

2.1 LIRDAR pipeline
LIDAR点云在每个voxel通过voxelNet网络进行编码,这些经过编码的LIDAR voxel经过了6个步长为2的3d稀疏卷积层,最后得到了在BEV空间128通道的LIDAR特征图。稀疏卷积让特征图高宽缩小了8倍。

2.2 RGB pipeline
与LIDAR的pipeline是并行的,RGB图像由Resnet-18+FPN作为backbone处理,最后产生256通道数的在图像域的特征图,高宽也缩小了8倍。

2.3 交叉视图特征映射
首先交叉视图特征(CVF)映射是为了生成在BEV中投影的相机特征图。自动校准投影将相机视图中的相机特征图转换为BEV中的特征地图。然后,通过附加的卷积层对投影的特征图进行增强,并将其传送到门控相机-LiDAR特征融合模块。
首先作者构造了一个摄像头体素结构用于特征映射。为了生成空间密集的特征,构造的相机体素结构的体素数量是LiDAR体素结构的四倍,其宽度和高度在(x,y)轴上比LiDAR体素结构长两倍。这使得体素结构具有更高的空间分辨率。
然后利用自动校准投影法,具体做法如下:为了在BEV中表示相机特征,将每个体素(就是指的上面构造的摄像头体素结构)的中心坐标投影到相机视图平面中(x+∆x,y+∆y)的点上,(x,y)就是一个像素点的坐标。使用线性插值组合其相邻的四个特征像素,并将组合后的特征像素分配给相应的体素。为什么有效?作者认为自动校准的投影提供了空间平滑的相机特征图,这些特征地图与BEV域中的LiDAR特征地图能形成非常好的匹配。
在这里插入图片描述

2.4 门控摄像机-LiDAR特征融合:
这个模块叫做自适应门控融合网络,它是将摄像机特征图与LiDAR特征图相结合,并且用了空间注意力图根据两个特征图的重要性来选择性的融合特征,最后生成了联合的相机-LiDAR特征图,并传给3D ROI融合refinement模块。
具体的操作如下:自适应门控融合网络先把两个输入concatenate起来,然后应用3×3卷积层,使用Sigmoid函数来生成注意图。这些注意图通过基于元素的乘积操作分别乘以相机特征(这时候的相机特征是经过交叉视图特征映射后的)和LiDAR特征。分别得到经过注意力图后的相机特征和雷达特征,最后的联合特征是将生成的这两个再concatenate起来得到的。

2.5 基于3D-ROI融合的精化(refinement)
在得到联合Camera-LiDAR特征后,由于联合的特征没有包含足够的空间信息,于是采用基于3D ROI pooling的方法提取多尺度LiDAR特征和相机特征(这些特征是由PointNet编码)和联合特征进行再次融合。最后利用融合后的特征产生最终的检测结果。
具体操作如下,将联合Camera-LiDAR特征扔进RPN网络回归坐标和置信度,最后得到对应的ROI。然后将ROI通过坐标转换为全局坐标并和浅层的LiDAR和相机特征进行融合。作者认为这些浅层的特征图保留了目标详细的空间信息(特别是z轴的),所以对proposals提供了很有用的信息。对于每一个LiDAR或者相机特征,将一个ROI分为R×R×R等间距坐标,使用RoI grid-based pooling,每个格子被单独得用PointNet编码,每个LiDAR或者相机特征最后把每个网格的特征向量进行组合生成一个1乘1的特征向量。最后将LiDAR和相机特征这两个1×1的特征于ROI对齐的联合特征concatenate起来,得到用于proposal refinement的最终特征。

3.实验结果
在这里插入图片描述

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值