自动驾驶 BEV 的核心技术有些什么

最新推荐文章于 2024-08-22 16:03:18 发布

adsdriver

最新推荐文章于 2024-08-22 16:03:18 发布

阅读量720

点赞数 20

文章标签：自动驾驶人工智能 BEV 核心技术

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuphahaha/article/details/139100498

版权

本文探讨自动驾驶中BEV（Bird's Eye View）的核心技术——BEVformer，它通过特征融合、时空注意力机制实现资源优化。BEVformer利用可变注意力机制Deformable-attention进行特征简化，降低计算量，并通过时间注意力模块处理时间对齐问题，提高物体检测的准确性。此外，文章还介绍了Deformable-attention的工作原理，强调其在CV领域的前景。

摘要由CSDN通过智能技术生成

自动驾驶 BEV 的核心技术有些什么

附赠自动驾驶最全的学习资料和量产经验：链接

这篇就是介绍BEVformer是个啥

先给个定义，BEVformer就是个基本框架：

1-通过多个摄像头来进行特征融合，纯视觉方案

2-通过特征对齐，将attention应用于时间与空间维度

3-Attention也是极简attention，抛弃多余的特征，在允许的范围内，尽量的粗粒度分布的空间（省资源）

4-Deformable-attention(这个估计大概率得开一门新篇了，这里就简单介绍一下)

举些例子说明它怎么做到的以上的能力和思路

老图新改

按照下图说，比如我要求橙色箭头上对应的这个点的特征，那如果我想求出这个点的特征，要和其他6个矩阵中的哪几个矩阵去做乘法呢（没错其实就可以简单理解成矩阵乘），如果我要全做，那这个框架等于没意义

然后我们判断一下，这个点对应的实际上在物理世界里是前面和左前方摄像头的位置，跟其他额外的四个不发生关系

最低0.47元/天解锁文章

关注

20
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
自动驾驶 BEV 的核心技术有些什么

但是这个和我们理解的LLM里面做的还有点小区别，看下图上一篇我们讲过整个方型实际上是一个Tensor，平面上看是一个矩阵，每一个格子可以认为一个向量，那这个向量的特征咋算呢，它是跟这个矩阵中所有点都做self-attention吗，那就是N的平方的计算量了。通过这个全连接层，你算出来4个绿色的点，这就立马不一样了，不但不用每个向量你都去求解（省时省力），而且，每个橙色的点，对应算出来的4个绿色的点，是不一样的（有针对性，其实是时序针对性，不过复杂对被框架给屏蔽了），这就是。还是比如说就跟周边几个做？
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。