3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View ..........论文阅读分享

原理图:

整体梳理:

        3D-CVF使用交叉视图空间特征融合策略将相机和 LiDAR 特征相结合。

        首先,该方法采用自校准投影,将 2D 相机特征转换为平滑的空间特征图,与鸟瞰图 (BEV) 域中的 LiDAR 特征具有最高的对应关系。

        然后,应用门控特征融合网络,使用空间注意力图,根据区域适当地混合相机和 LiDAR 特征;

        接下来,在后续的提案细化阶段也实现了摄像头-LiDAR 特征融合。低级 LiDAR 特征和摄像头特征使用基于感兴趣区域 (RoI) 的特征池分别池化,并与联合摄像头 LiDAR 特征融合,以增强提案优化。

第一部分 LiDAR Pipeline

1.原始点云划分体素后经过3D稀疏卷积网络进行处理。6层稀疏卷积层,步长为2,最后特征图的空间分辨率会减少8倍。

2.转至BEV域。

3.对稀疏卷积网络提取的特征进行ROI池化,提取感兴趣的区域后执行pointnet encode进行编码。

第二部分 Camera Pipeline(与第一部分并行处理)

1.Camera backbone是CNN+FPN提取六个角度的图像特征。

2.对图像特征提取感兴趣的区域并进行编码。

注意:由于相机视图特征在与 3D RoI 框不同的域中表示,因此这里设计了基于 RoI 网格的池化。

3D RoI 框中的 r ×r ×r 等距坐标点投影到相机视域,与这些点对应的相机特征像素由 PointNet 编码器编码。这些编码的多视图相机特征的串联形成另一个 1 × 1 特征向量。

第三部分 Cross-view feature mapping

原理图:

流程:

1.体素中心投影到相机视图平面中的(ˆ x, ˆ y),并且 (ˆ x, ˆ y) 由校准偏移量 (∆x, ∆y) 进行调整。

2.将靠近校准位置(ˆ x + ∆x、ˆ y + ∆y)的相邻相机特征像素与通过插值方法确定的权重相结合。目的是提高投影的精度,使其更贴近真实的相机视角特征位置。

3.组合像素向量公式如下:

其中集合 {fm,n} 对应于最接近(ˆ x+ ∆x, ˆ y + ∆y)的四个相邻特征像素,wm,n 是通过插值方法获得的权重。目的是计算组合特征。

第四部分 Gated Camera-LiDAR Feature Fusion

公式:

理解:

第五部分 3D RoI Fusion-based Refinement

1.融合的特征首先获取初始框。

2.基于 3D ROI 的融合网络融合了RPN、ROI、图像编码特征和点云编码特征再进行分类,预测。

  • 8
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值