论文笔记:3D-CVF(ECCV 2020)

论文笔记:3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection(ECCV 2020)

1.为什么要做这个研究(理论走向和目前缺陷) ?

因为之前基于融合的3D目标检测方法在融合时都会丢失到一些信息,导致算法的精度不高,本文想基于这一点进行改进。

2.他们怎么做这个研究 (方法,尤其是与之前不同之处) ?

1.auto-calibrated projection and the gated attention

2.3D RoI Fusion-based Refinement

3.实际上也是做了两次融合。

3.发现了什么(总结结果,补充和理论的关系)?

1.为什么说当把camera feature投影到3D world coordinates时,因为这个变换是一个one to many 的mapping,就会会丢失一些空间信息?(我认为如果是从3D到2D,才会丢失一些信息)

2.6个camera视角,是哪6个camera视角?

3.怎样得到文中所说的camera voxel structure,使其能被PointNet处理?

4.Cross-view feature mapping中的360 degree Camera Voxel指的是什么?

5.RoI grid-based pooling of camera features没看懂

4.摘要

提出问题:camera与lidar融合的一个挑战就是each modality得到的feature maps处于不同的camera和3D world坐标系中,因此,要将不同结构的feature maps融合在一起并且不丢失信息不是一个简单的任务。

为了解决上述问题,提出了3D-CVF,using the cross-view spatial feature fusion strategy。

首先,使用了auto-calibrated projection,将2D特征转化为一个平滑的feature map(并且是一个BEV图),这个feature map在BEV图中与lidar feature有很高的相关性。

接下来,使用了gated feature fusion network,其中应用了spatial attention maps来融合camera和lidar特征。

之后,将上一步融合的特征给到之后的proposal refinement stage。

low-level的lidar和camera features还分别使用了 region of interest (RoI)-based feature pooling进行池化,之后,再把它们与前一步得到的融合特征再融合一次。

5.引言

先是老生常谈,说一些之前的2D和3D目标检测做过的工作,3D目标检测做过的工作包括MV3D [2], PIXOR [29], ContFuse [13], PointRCNN [22], F-ConvNet [26], STD[30], VoxelNet [31], SECOND [28], MMF [12], PointPillar [9], and Part A2[23]等。

之后讲了只用camera的缺点,所以要做融合,那么做融合时就会涉及到摘要中提到的问题,那么本文如何解决呢?

首先,由于当把camera feature投影到3D world coordinates时,因为这个变换是一个one to many 的mapping,因此会丢失一些空间信息。并且,投影之后的坐标与liadr的 3D坐标可能仍有不一致性。也因为这两个原因,camera-LiDAR fusion-based methods 的效果很难比 LiDAR-only methods 好。

所以本文:输入为lidar和multi-view cameras,检测时分为两大stage。

第一个stage:使用了auto-calibrated feature projection可以maps the camera-view features to smooth and dense BEV feature maps using the interpolated projection capable of correcting the spatial offsets。

有无auto-calibrated feature projection的对比图如下:
在这里插入图片描述

并且要注意到经过auto-calibrated feature projection后的camera特征也不能有定位目标的效果。

We also note from Fig. 1 (b) that since the camera feature mapping is a one-to-many mapping, we cannot localize the objects on the transformed camera feature map. To resolve objects in the BEV domain, we employ the adaptive gated fusion network that determines where and what should be brought from two sources using attention mechanism. Fig. 1 © shows the appropriately-localized activation for the objects obtained by applying the adaptive gated fusion network.

6.相关工作。

7.网络结构

7.1总体架构

It consists of five modules including the 1) LiDAR pipeline, 2) camera pipeline,3) cross-view spatial feature mapping, 4) gated camera-LiDAR feature fusion network, and 5) proposal generation and refinement network.
在这里插入图片描述

LiDAR Pipeline:先用VoxelNet将点云体素化,再通过6个 3D sparse convolution 层(SECOND),得到的LiDAR feature map of 128 channels in the BEV domain。

RGB Pipeline:使用了pre-trained ResNet-18 [6] followed by feature pyramid network (FPN) [14] to generate the camera feature map of 256 channels represented in camera-view。

Cross-View Feature Mapping:The auto-calibrated projection converts the camera feature maps in camera-view to those in BEV. Then,the projected feature map is enhanced by the additional convolutional layers and delivered to the gated camera-LiDAR feature fusion block.

Gated Camera-LiDAR Feature Fusion:The spatial attention maps are applied to both feature maps to adjust the contributions from each modality depending on their importance.生成了camera-LiDAR feature map

3D RoI Fusion-based Refinement:先对上一步生成的camera-LiDAR feature map使用RoI pooling,可以proposal refinement。因为camera-LiDAR feature map没有充足的空间信息,对low-level的6个lidar和6个 camera features使用3D RoI-based pooling,对low-level的lidar和camera features提取特征时都采用PointNet,将得到的特征与camera-LiDAR feature map通过3D RoI-based fusion network得到最终的fused feature,用它来产生最终的检测结果。

7.2 Cross-View Feature Mapping

首先要产生camera voxel structure

之后是Auto-Calibrated Projection Method,将3D voxel map中的voxel的中心目标通过使用world-to-camera-view projection matrix 转化到camera-view plane中。转化后的每个中心与邻近的4个pixels结合成一个特征u。

看图和公式

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

7.3 Gated Camera-LiDAR Feature Fusion

可以衡量出camera and LiDAR features的重要性,即算出他们各自占的权重。

图和公式如下:

在这里插入图片描述

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tpR1VNlG-1610330957355)(C:\Users\小秦\AppData\Roaming\Typora\typora-user-images\1610175958946.png)]

7.4 3D-RoI Fusion-based Refinement

Region Proposal Generation:将the joint camera-LiDAR feature先经过RPN网络,由于产生的proposal
boxes数量太多,要经过NMS处理。

3D RoI-based Feature Fusion:

讲了RoI grid-based pooling of camera features是怎么做的

讲了RoI grid-based pooling of camera features是怎么做的

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MPzhczT3-1610330957358)(C:\Users\小秦\AppData\Roaming\Typora\typora-user-images\1610176405221.png)]

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值