BEV学习记录

蜡笔新小

已于 2023-02-26 16:05:52 修改

阅读量890

点赞数 2

分类专栏：深度学习文章标签：学习

于 2023-02-14 16:54:42 首次发布

本文链接：https://blog.csdn.net/m0_52945258/article/details/129029905

版权

深度学习专栏收录该内容

19 篇文章 1 订阅

订阅专栏

文章介绍了BEV在自动驾驶感知中的应用，包括LSS的深度估计方法，BEVFormer的2D-3D转换，M²BEV的多任务处理，以及BEVDepth、SimpleBEV和Fast-BEV在速度和精度上的改进。Fast-BEV着重于通过数据增强和修改视图变换提高速度，为车载应用提供更优解决方案。

摘要由CSDN通过智能技术生成

近期可能要经常性的开展BEV工作，打算把自己觉着不错的网站拿出来记录一下。

开山之作--LSS ECCV 2020 (2020.8)

BEVFormer ECCV 2022 （2022.3）

M²BEV （2022.4）

BEVerse （2022.5）

CVT CVPR 2022 (2022.5)

BEVDepth ECCV 2022 （2022.6）

Simple BEV CVPR 2022 （2022.6）

Fast-BEV NeurIPS 2022（2023.1）

BEVPoolv2 tech report(2022.11)

首先贴上来我还没有细读的一篇觉着不错的文章。

自动驾驶感知新范式——BEV感知经典论文总结和对比（上）_苹果姐的博客-CSDN博客_bev视角

开山之作--LSS ECCV 2020 (2020.8)

GitHub - nv-tlabs/lift-splat-shoot: Lift, Splat, Shoot: Encoding Images from Arbitrary Camera Rigs by Implicitly Unprojecting to 3D (ECCV 2020)

怎么描述lss呢，采用[1]里的一句话，Lss expicitly predicts depth distribution with a proposed view transform and projects image features onto BEV .

首先，他需要估计深度，其次根据深度进行投影，这就是他的视角转换方式。

BEVFormer ECCV 2022 （2022.3）

GitHub - fundamentalvision/BEVFormer: [ECCV 2022] This is the official implementation of BEVFormer, a camera-only framework for autonomous driving perception, e.g., 3D object detection and semantic map segmentation.

还是引用[1]，BEVFormer performs 2D-to-3D transformation based on spatital cross-attention.

它和lss有很大的不同，首先lss是先估计深度，在根据深度进行投影，而BEVFormer是根据BEV 网格直接在原始图片上使用query查询特征。（基于transformer的方式）

并且它使用了时间信息，利用self-attn 来融合历史的信息和现在的信息

M²BEV （2022.4）

这篇文章主要讲的是针对一个多任务进行处理的网络，他还是基于lss的投影方式进行优化的，并且，这篇文章应该是第一篇提出多任务的文章了吧。

其余的就是这里面有一个针对于远景物体提升权重的方式，算是一个小tricks了。

但是这篇文章有一个缺点：没有公开代码！！！（fast bev继承了这篇文章的结构，如果真的需要的话可以看那个）

BEVerse （2022.5）

GitHub - zhangyp15/BEVerse: The official repository for BEVerse

这篇文章，也使用了基于lss的投影方式，但是他和上述BEVDepth还有BEVFormer还不是很一样，他不注重于投影的创新，而是把重点放在了未来flow的预测还有multi-task的融合，并且研究了怎样将时间更好的融入到网络中（其实文章里面就一句话，follow Fiery）

CVT CVPR 2022 (2022.5)

GitHub - bradyz/cross_view_transformers: Cross-view Transformers for real-time Map-view Semantic Segmentation (CVPR 2022 Oral)

这篇文章主要是一个Transformer用到了BEV里面，他的网络结构很简单，主要突出的是速度和简单，但是其实他设计的点还是比较复杂的，涉及到了很多数学的东西，如果说我要优化这个的话，需要对Transformer的速度进行优化了，然后再加上simple-bev里面的一些特性。

BEVDepth ECCV 2022 （2022.6）

GitHub - Megvii-BaseDetection/BEVDepth: Official code for BEVDepth.

这篇文章与lss差不多类似，也是使用了估计深度的方法，再进行投影（基于lss）。并且这篇文章利用Lidar进行了监督，还有其他的一些tricks。（注意点是这篇文章不可以去掉LiDAR的监督，但是它又很费时）.

我导说这篇文章相较于BEVFormer而言，网络结构更清晰，更好进行一些修改。

Simple BEV CVPR 2022 （2022.6）

GitHub - aharley/simple_bev: A Simple Baseline for BEV Perception

这篇文章算是一个比较与众不同的文章了，它说明了其实我们的视角转换方式对于模型来说影响并不是很大，所以它采用了简单的插值方式。并且在这篇文章里面，作者对比了不同的视角投射或者encoder、图像分辨率等等对于网络的影响。

BEVPoolv2 tech report(2022.11)

GitHub - HuangJunJie2017/BEVDet: Official code base of the BEVDet series .

这篇很适合和Fast-BEV连起来看，他们都是再说怎么去将这些方法用到车载上面，提出了一个新的view-transformation方式，这个文章告诉我们，好的idea都是简洁的，也是关于lss投影方式的优化。

里面提到了一些双目深度估计的方法，如BEVStereo，STS,SOLOFusion等，也说了We consider that they trade too much inference time for small accuracy improvement（虽然自己没有看过）

Fast-BEV NeurIPS 2022（2023.1）

GitHub - Sense-GVT/Fast-BEV: Fast-BEV: A Fast and Strong Bird’s-Eye View Perception Baseline

这篇文章，注重的是速度（我导师说过，自从simplebev出来之后，其实他就讲了影响bev准确率的东西很多，而且影响最大的并不是映射方式，因此，之后的论文提升速度是关键）这篇就恰恰做到了通过修改view transformation去提升速度，它主要的创新点也是：

1.通过数据增强和加入时间序列来提升精度；

2.通过修改view transformation来提升速度，向车载进一步靠拢。

个人感觉写的还蛮好，这篇文章实验和对比量也特别大，但是之前没有看到M2BEV，之后打算再看一下这篇文章，真正全面的理解Fast-BEV（Fast-BEV全文都是围绕M2BEV做的）（基于lss）

创新点记录：

State-of-the-art genertic DNNs are often too expensive to run for video analytics all the time in resource-constrained environments [2].

[1]GitHub - Sense-GVT/Fast-BEV: Fast-BEV: A Fast and Strong Bird’s-Eye View Perception Baseline

[2]RECL: Responsive Resource-Efficient Continuous Learning for Video Analytics | USENIX

蜡笔新小

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
BEV学习记录

近期可能要经常性的开展BEV工作，打算把自己觉着不错的网站拿出来记录一下。
复制链接

扫一扫

专栏目录