3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View ..........论文阅读分享

阿威科研分享

于 2024-08-30 14:33:55 发布

阅读量159

点赞数 8

文章标签：论文阅读 3d 目标检测人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_56014475/article/details/141716286

版权

原理图：

整体梳理：

3D-CVF使用交叉视图空间特征融合策略将相机和 LiDAR 特征相结合。

首先，该方法采用自校准投影，将 2D 相机特征转换为平滑的空间特征图，与鸟瞰图（BEV）域中的 LiDAR 特征具有最高的对应关系。

然后，应用门控特征融合网络，使用空间注意力图，根据区域适当地混合相机和 LiDAR 特征;

接下来，在后续的提案细化阶段也实现了摄像头-LiDAR 特征融合。低级 LiDAR 特征和摄像头特征使用基于感兴趣区域（RoI）的特征池分别池化，并与联合摄像头 LiDAR 特征融合，以增强提案优化。

第一部分 LiDAR Pipeline

1.原始点云划分体素后经过3D稀疏卷积网络进行处理。6层稀疏卷积层，步长为2，最后特征图的空间分辨率会减少8倍。

2.转至BEV域。

3.对稀疏卷积网络提取的特征进行ROI池化，提取感兴趣的区域后执行pointnet encode进行编码。

第二部分 Camera Pipeline（与第一部分并行处理）

1.Camera backbone是CNN+FPN提取六个角度的图像特征。

2.对图像特征提取感兴趣的区域并进行编码。

注意：由于相机视图特征在与 3D RoI 框不同的域中表示，因此这里设计了基于 RoI 网格的池化。

3D RoI 框中的 r ×r ×r 等距坐标点投影到相机视域，与这些点对应的相机特征像素由 PointNet 编码器编码。这些编码的多视图相机特征的串联形成另一个 1 × 1 特征向量。

第三部分 Cross-view feature mapping

原理图：

流程：

1.体素中心投影到相机视图平面中的（ˆ x， ˆ y），并且（ˆ x， ˆ y）由校准偏移量（∆x， ∆y）进行调整。

2.将靠近校准位置（ˆ x + ∆x、ˆ y + ∆y）的相邻相机特征像素与通过插值方法确定的权重相结合。目的是提高投影的精度，使其更贴近真实的相机视角特征位置。

3.组合像素向量公式如下：

其中集合 {fm，n} 对应于最接近（ˆ x+ ∆x， ˆ y + ∆y）的四个相邻特征像素，wm，n 是通过插值方法获得的权重。目的是计算组合特征。

第四部分 Gated Camera-LiDAR Feature Fusion

公式：

理解：

第五部分 3D RoI Fusion-based Refinement

1.融合的特征首先获取初始框。

2.基于 3D ROI 的融合网络融合了RPN、ROI、图像编码特征和点云编码特征再进行分类，预测。

阿威科研分享

关注

8
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View ..........论文阅读分享

低级 LiDAR 特征和摄像头特征使用基于感兴趣区域（RoI）的特征池分别池化，并与联合摄像头 LiDAR 特征融合，以增强提案优化。其中集合 {fm，n} 对应于最接近（ˆ x+ ∆x， ˆ y + ∆y）的四个相邻特征像素，wm，n 是通过插值方法获得的权重。体素中心投影到相机视图平面中的（ˆ x， ˆ y），并且（ˆ x， ˆ y）由校准偏移量（∆x， ∆y）进行调整。，将 2D 相机特征转换为平滑的空间特征图，与鸟瞰图（BEV）域中的 LiDAR 特征具有最高的对应关系。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。