CRAFT: Camera-Radar 3D Object Detection with Spatio-Contextual Fusion Transformer

这是一篇韩国科学技术院(KAIST)和汉阳大学发表在aaai 2023上的文章: https://arxiv.org/abs/2209.06535

一、目的和创新点

  1. 根据相机和radar的特点,提出了一种proposal-level的前融合框架,减缓了两种模态坐标系之间的差异和测量数据上的歧义
  2. 提出了Soft-Polar-Association 和 Spatio-Contextual Fusion Transformer两种结构,高效地在相机和radar之间交换信息
  3. nuScenes上效果很好

主要思路还是用radar的点来refine 图片propose出来的3D框;

二、精度、速度和资源开销

3090上4.1fps不快

car, pedestrain上还是比PointPillars要低,但是需要语义帮助的类别,比如bicycle, traffic cone上要比point pillars好(nuScenes是32线的lidar, 128线的数据集上这个结论不一定成立)

 

三、实现

 

3.1 backbone 和相机目标检测3D目标检测

相机用cnn提取多视图特征,然后用3D目标检测propose框,框与其特征相关联:

radar输入数据是5帧叠加,并且通过ego-motion和dopler速度进行补偿,然后用point-net++等point based的方法进行特征提取,之后通过Image to radar Feature Encoder进行decoration:

3.2 Soft Polar Association

 把相机每个3D框和多个radar 的feature点在极坐标之下关联:

  • azimuth的阈值直接用相机3D框的范围;
  • 距离阈值方向会根据障碍物的距离和距离的置信度进行调整,越远/置信度越低,范围越大

3.3 Image to Radar Feature Encoder:

把radar Feature投影到相机平面做局部的cross attention,这步可以和3.2并行搞,供后面的3.4用;

 

3.4 Radar-to-Image Feature Encoder

对于3.2每个图片3D框及其“框中”的radar Feature,做cross attention,搞完的Feature给后面的检测头用;如果图片框里面没有框中点,则补零

 

四、消融实验

个人理解:

2D中有遮挡,不好做associate, 所以放到3D做

图片propose的3D框的azimuth其实挺准的,所以在极坐标下回归更合适,集中精力把深度搞好 

五、重要的参考文献

(2017 NeurIPS) Pointnet++: Deep hierarchical feature learning on point sets in a metric space

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值