《BEVSegFormer：Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs》论文笔记

最新推荐文章于 2024-06-09 09:39:37 发布

m_buddy

最新推荐文章于 2024-06-09 09:39:37 发布

阅读量438

点赞数

分类专栏： BEV Perception 文章标签：论文阅读计算机视觉深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m_buddy/article/details/126881834

版权

本文介绍了BEVSegFormer，一种不依赖相机标定信息，通过数据驱动学习进行鸟瞰图（BEV）语义分割的方法。利用transformer和deformable attention优化特征，构建BEV grid并进行特征计算。实验表明，虽然训练时间增加，但该方法能有效生成表达力强的BEV特征。

摘要由CSDN通过智能技术生成

参考代码：None

1. 概述

介绍：这篇文章构建bev特征是将bev grid作为query通过transformer完成的，同样为了减少计算量也使用了deformable attention操作。不过有一点是跟别的方法不一样的，那就是这篇文章的方法完全没有使用任何相机标定信息，全是通过数据驱动参数学习的形式，但是这样带来的问题是收敛速度会比较慢一点。此外，对于CNN网络部分使用self-deformable attention实现特征优化，以生成表达能力更好的bev特征。

下图展示的是bev query如何映射到图像特征的：
在这里插入图片描述
在之前的一些方法中是通过相机内外参数实现bev grid与图像特征图上reference point的映射，而这篇文章则使用的是全连接学习的形式，带来的好处是无需相机内外参数，这样可以避免对相机参数的依赖和相机参数偏移性能下降。带来的负面影响便是对数据更加依赖并且训练时长增加。

文章方法收敛曲线：
在这里插入图片描述

2. 方法设计

2.1 pipeline

文章方法的pipeline见下图所示：

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。