BEV学习记录

近期可能要经常性的开展BEV工作,打算把自己觉着不错的网站拿出来记录一下。

目录

开山之作--LSS ECCV 2020  (2020.8)

BEVFormer ECCV 2022 (2022.3)

M²BEV (2022.4)

BEVerse (2022.5)

CVT CVPR 2022 (2022.5)

BEVDepth ECCV 2022 (2022.6)

Simple BEV CVPR 2022 (2022.6)

Fast-BEV NeurIPS 2022(2023.1)

BEVPoolv2  tech report(2022.11)


首先贴上来我还没有细读的一篇觉着不错的文章。

自动驾驶感知新范式——BEV感知经典论文总结和对比(上)_苹果姐的博客-CSDN博客_bev视角

开山之作--LSS ECCV 2020  (2020.8)

GitHub - nv-tlabs/lift-splat-shoot: Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D (ECCV 2020)

怎么描述lss呢,采用[1]里的一句话,Lss expicitly predicts depth distribution with a proposed view transform and projects image features onto BEV .

首先,他需要估计深度,其次  根据深度进行投影,这就是他的视角转换方式。

BEVFormer ECCV 2022 (2022.3)

GitHub - fundamentalvision/BEVFormer: [ECCV 2022] This is the official implementation of BEVFormer, a camera-only framework for autonomous driving perception, e.g., 3D object detection and semantic map segmentation.

还是引用[1],BEVFormer performs 2D-to-3D transformation based on spatital cross-attention.

它和lss有很大的不同,首先lss是先估计深度,在根据深度进行投影,而BEVFormer是根据BEV 网格直接在原始图片上使用query查询特征。(基于transformer的方式)

并且它使用了时间信息,利用self-attn 来融合历史的信息和现在的信息

M²BEV (2022.4)

这篇文章主要讲的是针对一个多任务进行处理的网络,他还是基于lss的投影方式进行优化的,并且,这篇文章应该是第一篇提出多任务的文章了吧。

其余的就是这里面有一个针对于远景物体提升权重的方式,算是一个小tricks了。

但是这篇文章有一个缺点:没有公开代码!!!(fast bev继承了这篇文章的结构,如果真的需要的话可以看那个)

BEVerse (2022.5)

GitHub - zhangyp15/BEVerse: The official repository for BEVerse

这篇文章,也使用了基于lss的投影方式,但是他和上述BEVDepth还有BEVFormer还不是很一样,他不注重于投影的创新,而是把重点放在了未来flow的预测还有multi-task的融合,并且研究了怎样将时间更好的融入到网络中(其实文章里面就一句话,follow Fiery)

CVT CVPR 2022 (2022.5)

GitHub - bradyz/cross_view_transformers: Cross-view Transformers for real-time Map-view Semantic Segmentation (CVPR 2022 Oral)

这篇文章主要是一个Transformer用到了BEV里面, 他的网络结构很简单,主要突出的是速度和简单,但是其实他设计的点还是比较复杂的,涉及到了很多数学的东西,如果说我要优化这个的话,需要对Transformer的速度进行优化了,然后再加上simple-bev里面的一些特性。

BEVDepth ECCV 2022 (2022.6)

GitHub - Megvii-BaseDetection/BEVDepth: Official code for BEVDepth.

这篇文章与lss差不多类似,也是使用了估计深度的方法,再进行投影(基于lss)。并且这篇文章利用Lidar进行了监督,还有其他的一些tricks。(注意点是这篇文章不可以去掉LiDAR的监督,但是它又很费时).

我导说这篇文章相较于BEVFormer而言,网络结构更清晰,更好进行一些修改。

Simple BEV CVPR 2022 (2022.6)

GitHub - aharley/simple_bev: A Simple Baseline for BEV Perception

这篇文章算是一个比较与众不同的文章了,它说明了其实我们的视角转换方式对于模型来说影响并不是很大,所以它采用了简单的插值方式。并且在这篇文章里面,作者对比了不同的视角投射或者encoder、图像分辨率等等对于网络的影响。

BEVPoolv2  tech report(2022.11)

GitHub - HuangJunJie2017/BEVDet: Official code base of the BEVDet series .

这篇很适合和Fast-BEV连起来看,他们都是再说怎么去将这些方法用到车载上面,提出了一个新的view-transformation方式,这个文章告诉我们,好的idea都是简洁的,也是关于lss投影方式的优化。

里面提到了一些双目深度估计的方法,如BEVStereo,STS,SOLOFusion等,也说了We consider that they trade too much inference time for small accuracy improvement(虽然自己没有看过)

Fast-BEV NeurIPS 2022(2023.1)

GitHub - Sense-GVT/Fast-BEV: Fast-BEV: A Fast and Strong Bird’s-Eye View Perception Baseline

这篇文章,注重的是速度(我导师说过,自从simplebev出来之后,其实他就讲了影响bev准确率的东西很多,而且影响最大的并不是映射方式,因此,之后的论文提升速度是关键)这篇就恰恰做到了通过修改view transformation去提升速度,它主要的创新点也是:

1.通过数据增强和加入时间序列来提升精度;

2.通过修改view transformation来提升速度,向车载进一步靠拢。

个人感觉写的还蛮好,这篇文章实验和对比量也特别大,但是之前没有看到M2BEV,之后打算再看一下这篇文章,真正全面的理解Fast-BEV(Fast-BEV全文都是围绕M2BEV做的)(基于lss

创新点记录:

State-of-the-art genertic DNNs are often too expensive to run for video analytics all the time in resource-constrained environments [2].

[1]GitHub - Sense-GVT/Fast-BEV: Fast-BEV: A Fast and Strong Bird’s-Eye View Perception Baseline

[2]RECL: Responsive Resource-Efficient Continuous Learning for Video Analytics | USENIX

  • 2
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值