PETR: Position Embedding Transformation for Multi-View 3D Object Detection

最新推荐文章于 2024-05-22 17:00:00 发布

SugerOO

最新推荐文章于 2024-05-22 17:00:00 发布

阅读量2.8k

点赞数

分类专栏：论文笔记文章标签： embedding 3d 目标检测

本文链接：https://blog.csdn.net/SugerOO/article/details/131741776

版权

论文笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

PETR: Position Embedding Transformation for Multi-View 3D Object Detection

作者单位

旷视

目的

DETR3D 中 2D->3D过程存在的问题：

预测的参考点坐标可能不准确，在采样图片特征时可能拿不到对应的特征。
只有参考点投影位置的图像特征被使用，无法学到全局的特征。
采样图像特征的过程过于复杂，难于应用

本文的目标是在 DETR 的基础上，提出一个简单优雅的 3D 目标检测框架

本文的贡献总结：

提出了一个简单优雅的框架，PETR，用于多视角的 3D 目标检测。
提出了一个新的 3D position-aware 表示
在 nuScenes 数据集上达到了 sota

方法

网络结构

网络整体结构：

N 个 view 的图片，送入到 backbone（resnet50）中提取特征
3D坐标生成器：先将图像视锥空间离散化到成 3D 的网格，然后使用相机的参数，变换网格的坐标，并生成 3D 空间的坐标。
3D的坐标和 2D feature 一起送入到 3D 位置编码器中，生成 3D position-aware 特征（每个 view 对应一个特征图）。
3D position-aware 特征会送入到 transformer decoder 中并且与来自 query 生成器的 object queries 交互
更新后的 object queries 被用于生成目标类别和 3D 的 bounding boxes

3D 坐标生成器：

为了建立起 2D 图像和 3D 空间的联系，将相机视锥空间的点投影到 3D 空间，因为这两个空间的点是一一对应的。
和 DGSN 论文相同，首先离散相机视锥空间生成一个网格（shape : W_F, H_F, d），然后可以用一个变换矩阵将坐标转换到 3D 坐标，3D 空间的是所有 view 的相机共享的。
然后再对 3D 空间下的坐标做归一化
归一化之后的坐标在经过一次 transposed

3D 位置编码器

3D 位置编码器的目的是通过联系 2D 图像特征与 3D 位置信息来获得 3D 的特征
3D 位置编码器的结构：
2D特征经过 1x1 卷积降维，3D坐标使用 mlp 生成 embedding，然后将两者 add ，再使用 flatten ，生成向量（3D position-aware feature, shape， NxHxW）

Query 生成器和 Decoder

Query Generator：
（网络学习的是基于最初的 object queries 的 offset ，这样有利于网络收敛。以及该网络生成的是 3D 空间下的坐标点，这样可以保证网络的收敛，本文尝试了 DETR 中的设置，或者生成 BEV 下的 anchor poitns 都不能保证收敛
）
首先初始化一组可学习的 3D 世界空间的 anchor poins 服从 0到1 的均匀分布，
然后输出两层的 mlp 中生成最初的object queries。

Decoder
使用的 DETR 中标准的 decoder

SugerOO

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
PETR: Position Embedding Transformation for Multi-View 3D Object Detection

以及该网络生成的是 3D 空间下的坐标点，这样可以保证网络的收敛，本文尝试了 DETR 中的设置，或者生成 BEV 下的 anchor poitns 都不能保证收敛。和 DGSN 论文相同，首先离散相机视锥空间生成一个网格（shape : W_F, H_F, d），然后可以用一个变换矩阵将坐标转换到 3D 坐标，3D 空间的是所有 view 的相机共享的。为了建立起 2D 图像和 3D 空间的联系，将相机视锥空间的点投影到 3D 空间，因为这两个空间的点是一一对应的。
复制链接

扫一扫