PETR: Position Embedding Transformation forMulti-View 3D Object Detection

最新推荐文章于 2024-09-02 16:11:34 发布

马喽爱打代码

最新推荐文章于 2024-09-02 16:11:34 发布

阅读量602

点赞数 9

文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2301_77102499/article/details/141059961

版权

一.总结

目标: 开发一个基于DETR的简单而优雅的3D目标检测框架。检验是否有可能将2D特征从多视图转换为3d感知特征。以便于对象查询就可以在3D环境下直接更新。

优点: 1. 保留了原始DETR的端到端的优点

2. 避免了复杂的2d到3d的投影和特征采样

二.比较

1.DETR

输入: 2D的特征和 2D的位置编码(2D PE)

输入2: Object Query

每一个 query都代表一个目标通过object query去找到2d特征图对应的特征再通过2d特征编码信息去迭代更新object query

解码模式: Decoder

2.DETR3D

输入: 输入Object Query

流程1: 提取ref point

流程2：采样图像特征

解码模块: Decoder

3.PETR

输入1: 3D位置编码

3D位置编码将多视角的2D图像特征转化为3D感知特征

输入2: 提取Object Query

query可以在3D语义环境下进行一个更新省略了来回反投影的一个过程以及特征重复采样的一个过程

解码模式: Decoder

三.主体结构

1. 输入和输出

输入: N个多视角图像（N等于6)

输出: 3D检测结果(由目标类别和功能框组成)

2. 提取多视角图像的2D图像特征

输入: 多视角图像

步骤：2DBackbone

输出：Camera Features

3. 3D Coordinates Generator(3D 坐标生成器)

目的: 将图像坐标转化为3D空间坐标 从而完成2D到3D的转换

步骤1:将相机视锥空间离散成大小为(

，

，D)的网格,网格中的每一个点用

表示，其中

是图像中的像素坐标，

是沿着正交于图像平面的轴线的深度值，每个j表示当前离散化网格的一个点。

1.建立2D图像和3D空间之间的关系，我们将相机视锥空间中的点投影到3D空间(这两个空间之间的点是一对一分配)。

步骤2：相机i 在视锥空间的第j个点 是:

1.PETR的输入是多个视角图像所以我们以nuScence为例，包含6个视角的相机图像

2.i :表示第i个相机 j:相机空间第i个相机空间中的第j个点

3.相机空间第i个相机空间中的第j个点的3d坐标

4.如何从

表示

？
相机坐标系到世界坐标系的转换公式：

步骤3：通过相机内外参可以将相机视锥空间转换到3D世界坐标，

是相机i的转换矩阵

每个视角的图像都经过相应的转换，所以就可以得到6个坐标下不同的转换结果(6个不同颜色表示)。并且由一定重叠区域，6个视角下不同的转换结果组成了完整的3d空间

步骤4：所有视图的3D坐标覆盖了转换后场景的全景图。我们将3D坐标进一步归一化

4. 3D Position Encoder

输入1: 2D图像特征

输入2：3D坐标

步骤：特征-坐标自适应映射

步骤1：将多视图2D图像特征输入到1 x1卷积层进行降维。

步骤2：由3D坐标生成器产生的3D坐标通过多层感知器转换为3D位置嵌入

步骤3：3D位置嵌入与同一视图的2D图像特征相加，产生3D位置感知特征。

步骤4：3D位置感知特征被平展(

是扁平化操作)，并作为transformer解码器的输入。

输出: 3D Position-aware Feature(融合了位置信息的特征)

5. Query Generator(查询生成器)和Decoder(解码器)

Query Generator ：

步骤1: PETR为了降低3D场景的收敛难度，先在3D世界空间中以均匀分布的方式初始化一组可学习的3D anchor(3D锚点)，然后3D ancho(锚点)经过一个小型MLP生成初始的object query

步骤2: 将3D Position-aware Feature和object query 一起喂给Decoder 可以迭代更新 object query 以便用来做检测

四.实验

1. 性能对比

分辨率越高的图像好于分辨率较低的图像
更强大的backbone性能也是更好的
表示是从FCOS3d开始初始化的

2. 3D位置编码的影响

马喽爱打代码

关注

9
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

马喽爱打代码

CSDN认证博客专家 CSDN认证企业博客

码龄2年

11: 原创

6万+: 周排名

6万+: 总排名

1万+: 访问

: 等级

375: 积分

454: 粉丝

248: 获赞

12: 评论

253: 收藏

私信

关注

热门文章

分类专栏

mmdet3d 4篇

最新评论

MMdet3d在s3dis数据集上面完成pointnet++的训练及其可视化
Fluxion_D: 博主，S3DIS数据集的链接过期啦，可以再发下么
MMdet3d在s3dis数据集上面完成pointnet++的训练及其可视化
谭弹潭: 你这个实现了语义分割还是实例分割呀
mit-bevfusion遇到的问题及其解决办法
Jacky_XXXX: 太牛了哥，解决困扰我一天的问题了
mit-bevfusion结构代码解读
m0_55527361: 请问你这个是怎么debug的呀
Second代码解读
CSDN-Ada助手: 恭喜您发布了第8篇博客“Second代码解读”！看到您持续创作，真是令人钦佩。希望您能继续保持写作的热情和动力，不断提升自己的创作水平。或许下一步可以尝试探讨一些新颖的主题或者深入挖掘某个领域的知识，让读者有更丰富的阅读体验。期待您的下一篇作品！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。