Accurate 3D Object Detection using Energy-Based Models

最新推荐文章于 2023-10-26 17:26:00 发布

塔楼

最新推荐文章于 2023-10-26 17:26:00 发布

阅读量249

点赞数

分类专栏：计算机视觉/目标跟踪/目标检测算法文章标签：机器学习深度学习概率论

本文链接：https://blog.csdn.net/qq_28915885/article/details/120297864

版权

计算机视觉/目标跟踪/目标检测同时被 2 个专栏收录

12 篇文章 0 订阅

订阅专栏

算法

9 篇文章 0 订阅

订阅专栏

问题

3DOD的任务是在所给顶的感知数据上估计出包围目标的3D框，大致分为两个子任务：将给定的候选3D框中将目标进行分类，然后回归出该目标的bbox；
如何在复杂环境下使用激光雷达数据对3D bbox进行准确回归；
3DOD中基于概率密度回归的bbox回归方法在推理时需要使用梯度上升最大化 $p(y|x;\theta)$ ，要求DNN的标量输出 $f_\theta(x,y)$ 对bbox $y$ 是可微的，但当前方法无法满足可微这一条件；

解决方案

使用基于能量模型的概率回归方法，进行回归；
使用3D bbox的可微的池化，使得test时可以使用多次迭代优化回归；

实现

基于能量模型的回归
- 基于能量的模型中，使用条件EBM对给定 $x$ 的 $y$ 的分布 $p (y ∣ x)$ 进行建模，定义为：
  
  其中， $f_\theta: X\times Y\rightarrow R$ 是一个DNN映射， $Z(x,\theta)=\int e^{f_\theta(x,\hat y)}d\hat y$ 为对输入有依赖的归一化函数，DNN的输出 $f_\theta(x,y)$ 被解释为分布 $p (x ∣ y)$ 的(负)能量;
- 在测试时，模型需要预测给定 $x\star$ 情况下最可能的目标， $y^\star=argmax_y{p(y|x\star;y)}$ ；在实际训练中， $y^\star=argmax_y{f_\theta(x\star,y)}$ 可以通过微调T步的一个初始估计 $\hat y$ 来得到最终的y的估计：
- 使用NCE进行训练，损失如下：
  
  其中， ${y_i^{(m)}\}_{m=1}^M$ 为从噪声分布 $p(y|y_i)$ 中采集的样本， $y_i$ 为真实目标；q为以 $y_i$ 为中心的K个Guassins混合模型 $q(y|y_i)=1/K\sum_{k=1}^KN(y;y_i;\sigma_k^2I)$ ；
- polo
SA-SSD3D目标检测器
- baseline的框架
  
  给定LiDAR点云数据，该模型估计出D个预测 ${d_i\}_{i=1}^D$ ，每个d包含一个3D bbox的预测y： $y=[c_x,c_y,c_z,h,w,l,,\Phi]\in R^7$ ，其中 $\Phi$ 为bbox的方位角。首先，LiDAR点云数据被编码为3D的tensor，输入backbone网络，使用子流形稀疏3D卷积进行处理，生成3为的tensor $h_1(x)\in R^{W\times L\times H\times C}$ ，将该特征进行flatten，得到其BEV（鸟瞰）特征表示 $h_2(x)\in R^{W\times L\times HC}$ ， $h_2(x)$ 再通过六个标准的2D卷积层，得到 $h_3(x)\in R^{W\times L\times C'}$ ， $h_3(x)$ 则被送入检测网络进行分类和回归；
- polo
Conditional EBM的定义
- 为了实现输出 $f_\theta(x,y)$ 对3D的 $y$ 可微，基于2D的回归方法，为3D中的可微的池化操作；
- 3D的可微池化：利用2D的特征 $h_3(x)\in R^{W\times L\times C'}$ ，使用 $y^{BEV}$ 对 $h_3$ 进行池化，提取特征向量 $h_4(x,y^{BEV})$ 。其中 $y^{BEV}=[c_x,c_y,w,l,\Phi]\in R^5$ ，其为一个具有方向的2D bbox，无法直接使用2D的池化。所以将 $y^{BEV}$ 划分为规则的grid，通过对 $h_3$ 进行双线性插值来提取每个grid中的特征向量， $g\in R^{C'}$ ，然后flatten获取特征向量 $h_4(x,y^{BEV})\in R^{W'L'C'}$ ，该池化操作对 $y^{BEV}$ 是可微的。如下图：
- 但 $h_4(x,y^{BEV})$ 是 $y^{BEV}$ 的函数，并不包含全部的3D bbox $y$ ，在测试期间使用梯度上升无法更新 $c_z$ 和 $h$ 。此处通过两个全连接层处理 $c_z$ 和 $h$ ，生成向量 $g_{c_z}\in R^{C''}$ 和 $g_{h}\in R^{C''}$ ，最终将三个特征向量cat到一起，得到来自3D的bbox y的池化特征 $h_5(x,y)$ 。如下图所示：
检测器的训练和推理
- 训练
- 推理
  - 给定点云数据p，检测器SA-SSD输出2D特征 $h_3(x\star)$ 和检测结果 $\{(\hat y_i,s_i)\}_{i=1}^D$ ， $s_i$ 为分类得分；
  - 将所有的bbox $\{\hat y_i\}_{i=1}^D$ 作为初始bbox，通过T步梯度上升进行微调使得趋向于 $f_\theta(x\star,y)$ 的不同局部最大值，最终得到 ${y_i\}_{i=1}^D$ ；
- 实验结果：论文中

塔楼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Accurate 3D Object Detection using Energy-Based Models

问题3DOD的任务是在所给顶的感知数据上估计出包围目标的3D框，大致分为两个子任务：将给定的候选3D框中将目标进行分类，然后回归出该目标的bbox；如何在复杂环境下使用激光雷达数据对3D bbox进行准确回归；3DOD中基于概率密度回归的bbox回归方法在推理时需要使用梯度上升最大化p(y∣x;θ)p(y|x;\theta)p(y∣x;θ)，要求DNN的标量输出fθ(x,y)f_\theta(x,y)fθ(x,y)对bbox yyy是可微的，但当前方法无法满足可微这一条件；解决方案使用
复制链接

扫一扫