一作解读 | CVPR 2022最佳学生论文奖

作者:陈涵晟(同济大学研究生、阿里达摩院研究型实习生)

距离 CVPR 2022 各大奖项公布没多久,来自同济大学研究生、阿里达摩院研究型实习生陈涵晟为我们解读最佳学生论文奖。

文章来源 机器之心

本文解读我们获得 CVPR 2022 最佳学生论文奖的工作《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》。论文研究的问题是基于单张图像估计物体在 3D 空间中的位姿。现有方法中,基于 PnP 几何优化的位姿估计方法往往通过深度网络提取 2D-3D 关联点,然而因为位姿最优解在反向传播时存在不可导的问题,难以实现以位姿误差作为损失对网络进行稳定的端到端训练,此时 2D-3D 关联点依赖其他代理损失的监督,这对于位姿估计而言不是最佳的训练目标。为解决这一问题,我们从理论出发,提出了 EPro-PnP 模块,其输出位姿的概率密度分布而非单一的位姿最优解,从而将不可导的最优位姿替换为了可导的概率密度,实现了稳定的端到端训练。EPro-PnP 通用性强,适用于各类具体任务和数据,可以用于改进现有的基于 PnP 的位姿估计方法,也可以借助其灵活性训练全新的网络。从更一般的意义来说,EPro-PnP 本质是将常见的分类 softmax 带入到了连续域,理论上可以推广至训练一般的嵌套了优化层的模型。

833ec94186d86382bceaffadda1d6850.png

  • 论文链接:https://arxiv.org/abs/2203.13254

  • 代码链接:https://github.com/tjiiv-cprg/EPro-PnP

一、前言

f0cec06804d4e0b2e61b181f36879a58.png

我们研究的是 3D 视觉中的一个经典问题:基于单张 RGB 图像定位其中的 3D 物体。具体而言,给定一张含有 3D 物体投影的图像,我们的目标是确定物体坐标系到相机坐标系的刚体变换。这一刚体变换被称为物体的位姿,记作 y,其包含两部分:1)位置(position)分量,可用 3x1 的位移向量 t 表示,2)朝向(orientation)分量,可用 3x3 的旋转矩阵 R 表示。

45c59b67473917709fcf180cff2f1757.png

针对这一问题,现有方法可以分为显式和隐式两大类。显式方法也可称作直接位姿预测,即使用前馈神经网络(FFN)直接输出物体位姿的各个分量,通常是:1)预测物体的深度,2)找出物体中心点在图像上的 2D 投影位置,3)预测物体的朝向(朝向的具体处理方法可能比较复杂)。利用标有物体真实位姿的图像数据,可以设计损失函数直接监督位姿预测结果,轻松地实现网络的端到端训练。然而,这样的网络缺乏可解释性,在规模较小的数据集上易于过拟合。在 3D 目标检测任务中,显式方法占据主流,尤其是对于规模较大的数据集(例如 nuScenes)。

141b3d17de579cd5a6e35d2698683bd4.png

隐式方法则是基于几何优化的位姿估计方法,最典型的代表是基于 PnP 的位姿估计方法。这类方法中,首先需要在图像坐标系中找出 N 个 2D 点(第 i 点 2D 坐标记作f0a91c8a1251eac302646aa471e1e21a.png),同时在物体坐标系中找出与之相关联的 N 个 3D 点(第 i 点 3D 坐标记作be1c5688ed772898017e01cc929eada9.png),有时还需要获取各对点的关联权重(第 i 对点的关联权重记作e9b2db3b84cc93a4b8b5761765f372be.png)。根据透视投影约束,这 N 对 2D-3D 加权关联点隐式地定义了物体的最优位姿。具体而言,我们可以找出使重投影误差最小的物体位姿ded2b98c569308f2fe6728fc7dcf9f79.png

4019d7ba0c95581518f540ce1008f39a.png

其中e7ee62f4100543016688a6004444170b.png,表示加权重投影误差,是位姿的97a4520550538dc2cc4738f45d169038.png函数。6605ecade27ab2281d298b38be78d354.png表示含有内参的相机投影函数,8f89a811fb12ed8c8691ba0737ed412e.png表示元素乘积。PnP 方法常见于物体几何形状已知的 6 自由度位姿估计任务中

7fc0756fb27518f2daf6b4db5d57dddc.png

基于 PnP 的方法也需要前馈网络去预测 2D-3D 关联点集da4004ab61ca2dbc0e6136d6f0526775.png。相比于直接位姿预测,这一深度学习结合传统几何视觉算法的模型有非常好的可解释性,其泛化性能较为稳定,但在以往的工作中模型的训练方法存在缺陷。很多方法通过构建代理损失函数,去监督 X 这一中间结果,这对于位姿而言不是最优的目标。例如,已知物体形状的前提下,可以预先选取出物体的 3D 关键点,然后训练网络去找出对应的 2D 投影点位置。这也意味着代理损失只能学习 X 中的部分变量,因此不够灵活。如果我们不知道训练集中物体的形状,需要从零开始学习 X 中的全部内容该怎么办?

显示和隐式方法的优势互补,如果能够通过监督 PnP 输出的位姿结果,端到端地训练网络去学习关联点集 X ,则可以将二者优势结合。为实现这一目标,一些近期研究利用隐函数求导实现了 PnP 层的反向传播。然而,PnP 中的 argmin 函数在某些点是不连续不可导的,使得反向传播并不稳定,直接训练难以收敛。

二、EPro-PnP 方法介绍

1、EPro-PnP 模块

817659cb07b980acf4f58294b1c23b9c.png

为了实现稳定的端到端训练,我们提出了端到端概率 PnP(end-to-end probabilistic PnP),即 EPro-PnP。其基本思想是将隐式位姿视作一个概率分布,则其概率密度eb2f1ab77ae28f4bc76c7d6e2d9ecd1d.png对于 X 是可导的。首先基于重投影误差定义位姿的似然函数:

d9abaac220aeae02ee032a1efc1a35b2.png

若使用无信息先验,则位姿的后验概率密度为似然函数的归一化结果:

b8748abada934738a68f44c294986608.png

可以注意到,以上公式与常用的分类 softmax 公式4e3fd4cb7c13ed72f8342c5d9582e934.png分接近,其实 EPro-PnP 的本质就是将softmax从离散阈搬到了连续阈,把求和78743d917c2c60bbb47e87fcafd14b30.png换成了积分9056a2b9aa037249c96367c7c5580be8.png

2、KL 散度损失

在训练模型的过程中,已知物体真实位姿68252f86b75d0caf2463a73dc0e72e7a.png,则可以定义目标位姿分布cd675d9858c85f8f7a6c7a203ce6d5a4.png。此时可以计算 KL 散度3be0856d168157f6b057636028a9fb1c.png作为训练网络所用的损失函数(因fac2f807f113b528188d4d87315033d7.png固定,也可以理解为交叉熵损失函数)。在目标9f5b76531588eb4586d63c9423006d99.png趋近于 Dirac 函数的情况下,基于 KL 散度的损失函数可以简化为以下形式:

7d6db38052fdfc07d240f6d4b962bea0.png

如对其求导则有:

bba40b0eff9f7d1182fe44e118318365.png

可见,该损失函数由两项构成,第一项(记作23025dd914bbbcc650b39673803aa3a2.png)试图降低位姿真值f2413689a8735b3aebce8089b83ab48c.png的重投影误差,第二项(记作a941742e5ea492b08931eb11d525f736.png)试图增大预测位姿24d27ea02d49a4261727855c7edf39d8.png各处的重投影误差。二者方向相反,效果如下图(左)所示。作为类比,右边就是我们在训练分类网络时常用的分类交叉熵损失。

b6315de740d4626b4dbf3ca373f87b11.png

3、蒙特卡洛位姿损失

需要注意到,KL 损失中的第二项9dbd147e125b58e92fb9c1e07c0370e9.png中含有积分,这一积分没有解析解,因此必须通过数值方法进行近似。综合考虑通用性,精确度和计算效率,我们采用蒙特卡洛方法,通过采样来模拟位姿分布。

0091c4531fbc42141daef5845f8b5394.png

具体而言,我们采用了一种重要性采样算法——Adaptive Multiple Importance Sampling(AMIS),计算出K个带有权重6294fd0eaaae7437ecab14bd9e468be6.png的位姿样本d5977e458ce248148a6c67d88490f0e5.png,我们将这一过程称作蒙特卡洛 PnP:

210bfeeba18ee06cabfa4e4ed55f6358.png

据此,第二项f16b83e341c853b99a9dd430d6bc398c.png可以近似为关于权重8c54f98c522f0e24a56724befd6dc5c4.png的函数,且048aeb92e0a1d3ab8b1bc9eb7e89f17e.png可以反向传播:

dc6d19638ac04f36a6a27f13ef96db57.png

位姿采样的可视化效果如下图所示:

5a83c98a25d69b6a292043705066fad3.png

4、针对 PnP 求解器的导数正则化

尽管蒙特卡洛 PnP 损失可以用于训练网络得到高质量的位姿分布,但在推理阶段,还是需要通过 PnP 优化求解器来得到最优位姿解4f36959a519ce607c7411d5ed86cc2e4.png。常用的高斯 - 牛顿及其衍生算法通过迭代优化求解4ea573abaa74ea86f788eca5476a775b.png,其迭代增量是由代价函数0aa357732d3f496e030515a9bc9b55c7.png的一阶和二阶导数决定的。为使 PnP 的解35eff58a77dc388af293c1e07c843fbe.png更接近真值6430e5cda39725a9a3fd3178e9b521ff.png,可以对代价函数的导数进行正则化。设计正则化损失函数如下:

1659c9703f72c22fbe17297e82368423.png

其中,cabd42e5804a1c644bec9a786b271f23.png为高斯 - 牛顿迭代增量,与代价函数的一阶和二阶导数有关,且可以反向传播,226b619115fdd51f2480d2185d371445.png表示距离度量,对于位置使用 smooth L1,对于朝向使用 cosine similarity。在b009f667939f06e1bbec83d909f1ea4c.png不一致时,该损失函数促使迭代增量2e6b6e68749a360291b9117e0f1008f2.png指向实际真值。

三、基于 EPro-PnP 的位姿估计网络

我们在 6 自由度位姿估计和 3D 目标检测两个子任务上分别使用了不同的网络。其中,对于 6 自由度位姿估计,在 ICCV 2019 的 CDPN 网络的基础上稍加修改并用 EPro-PnP 训练,用来进行 ablation studies;对于 3D 目标检测,在 ICCVW 2021 的 FCOS3D 基础上设计了全新的变形关联(deformable correspondence)检测头,以证明 EPro-PnP 可以训练网络在没有物体形状知识的情况下直接学出所有 2D-3D 点和关联权重,从而展现 EPro-PnP 在应用方面的灵活性。

1、用于 6 自由度位姿估计的稠密关联网络

01fa8335a64dfac502bb7339c30ad0f3.png

网络结构如上图所示,只是在原版 CDPN 的基础上修改了输出层。原版 CDPN 使用已经检测到的物体 2D 框裁剪出区域图像,输入到 ResNet34 backbone 中。原版 CDPN 将位置与朝向解耦为两个分支,位置分支使用直接预测的显式方法,而朝向分支使用稠密关联和 PnP 的隐式方法。为了研究 EPro-PnP,改动后的网络只保留了稠密关联分支,其输出为 3 通道的 3D 坐标图,以及 2 通道关联权重,其中关联权重经过了 spatial softmax 和 global weight scaling。增加 spatial softmax 目的是对权重cd89497ac1d8c56acf0823535f023f43.png进行归一化,使其具有类似 attention map 的性质,可以关注相对重要的区域,实验证明权重归一化也是稳定收敛的关键。Global weight scaling 反映了位姿分布0545a16883b109dd92430ca14097817e.png的集中程度。该网络仅需 EPro-PnP 的蒙特卡洛位姿损失就可以训练,此外可以增加导数正则化,以及在物体形状已知的情况下增加额外的 3D 坐标回归损失。

2、用于 3D 目标检测的变形关联网络

72504c140fd2ace3e049e26695e9f00c.png

网络结构如上图所示。总体而言是基于 FCOS3D 检测器,参考 deformable DETR 设计的网络结构。在 FCOS3D 的基础上,保留其 centerness 和 classification 层,而将其原有的位姿预测层替换为 object embedding 和 reference point 层,用于生成 object query。参考 deformable DETR,我们通过预测相对于 reference point 的偏移量得到 2D 采样位置(也就得到了ee86a28383aae0f5c1f391f39296ca47.png)。采样后的 feature 经由 attention 操作聚合为 object feature,用于预测物体级别的结果(3D score,weight scale,3D box size 等)。此外,采样后各点的 feature 在加入 object embedding 并经由 self attention 处理后输出各点所对应的的 3D 坐标9bd83496a377de5245db7dd1134a576f.png和关联权重224be21826378ad89c9774adcecbe52c.png。所预测的7e6638cf014c826fcfa3413c34b4b0b9.png全部可由 EPro-PnP 的蒙特卡洛位姿损失训练得到,不需要额外正则化就可以收敛并有较高的精度。在此基础上,可以增加导数正则化损失和辅助损失进一步提升精度。

四、实验结果

1、6 自由度位姿估计任务

64f4575b29396cd33dcc72c2d917e5ca.png

使用 LineMOD 数据集实验,并严格与 CDPN baseline 进行比对,主要结果如上。可见,增加 EPro-PnP 损失进行端到端训练,精度显著提升(+12.70)。继续增加导数正则化损失,精度进一步提升。在此基础上,使用原版 CDPN 的训练结果初始化并增加 epoch(保持总 epoch 数与原版 CDPN 的完整三阶段训练一致)可以使精度进一步提升,其中预训练 CDPN 的优势部分来源于 CDPN 训练时有额外的 mask 监督。

41e30536bdfaa14d7fc1fa331f5baea9.png

上图是 EPro-PnP 与各种领先方法的比较。由较落后的 CDPN 改进而来的 EPro-PnP 在精度上接近 SOTA,并且 EPro-PnP 的架构简洁,完全基于 PnP 进行位姿估计,不需要额外进行显式深度估计或位姿精修,因此在效率上也有优势。

2、3D 目标检测任务

0cb89d17e75183cc975e668cea88a35c.png

使用 nuScenes 数据集实验,与其他方法对比结果如上图所示。EPro-PnP 不仅相对 FCOS3D 有了明显提升,还超越了当时的 SOTA、FCOS3D 的另一个改进版本 PGD。更重要的是,EPro-PnP 目前是唯一在 nuScenes 数据集上使用几何优化方法估计位姿的。因 nuScenes 数据集规模较大,端到端训练的直接位姿估计网络已具有较好性能,而我们的结果说明了端到端地训练基于几何优化的模型能做到在大数据集上取得更加优异的性能。

3、可视化分析

976d011bcbd9267d8aa7ee8747f1d400.png

上图显示了用 EPro-PnP 训练的稠密关联网络的预测结果。其中,关联权重图c083ca2a228b79d89550164973297f0e.png对图像中的重要区域进行了高光,类似于 attention 机制。由损失函数分析可知,高光区域对应的是重投影不确定性较低以及对位姿变动较为敏感的区域。

0a866fa3bf62b4d6659db4d6332eb1f3.png

3D 目标检测的结果如上图所示。其中左上视图显示了变形关联网络采样出的 2D 点位置,红色表示fa3488008bb33c1180825df3d3292e35.png水平 X 分量较高的带你,绿色表示9013cd875dbe1f15a5f09f88ad3e905f.png垂直 Y 分量较高的点。绿色点一般位于物体上下两端,其主要作用是通过物体高度来推算物体的距离,这一特性并非人为指定,完全是自由训练的结果。右图显示了俯视图上的检测结果,其中蓝色云图表示物体中心点位置的分布密度,反映了物体定位的不确定性。一般远处的物体定位不确定性大于近处的物体。

344b1dffe583849a72a610d3958c8b5b.png

EPro-PnP 的另一重要优势在于,能够通过预测复杂的多峰分布来表示朝向的模糊性。如上图所示,Barrier 由于物体本身旋转对称,朝向经常出现相差 180° 的两个峰值;Cone 本身没有特定的朝向,因此预测结果在各个方向均有分布;Pedestrian 虽不完全旋转对称,但因图像不清晰,不易判断正面和背面,有时也会出现两个峰值。这一概率特性使得 EPro-PnP 对于对称物体不需要在损失函数上做任何特殊处理。

五、总结

EPro-PnP 将原本不可导的最优位姿转变为可导的位姿概率密度,使得基于 PnP 几何优化的位姿估计网络可实现稳定且灵活的端到端训练。EPro-PnP 可应用于一般的 3D 物体位姿估计问题,即使在未知 3D 物体几何形状的情况下,也可以通过端到端训练学习得到物体的 2D-3D 关联点。因此,EPro-PnP 拓宽了网络设计的可能性,例如我们提出的变形关联网络,这在以往是不可能训练的。此外,EPro-PnP 也可以直接被用于改进现有的基于 PnP 的位姿估计方法,通过端到端训练释放现有网络的潜力,提升位姿估计精度。从更一般的意义来说,EPro-PnP 本质是将常见的分类 softmax 带入到了连续域,不仅可用于其他基于几何优化的 3D 视觉问题,理论上还可以推广至训练一般的嵌套了优化层的模型。

猜您喜欢:

f5298d4d1a72ed34008f8ed731233434.png 戳我,查看GAN的系列专辑~!

一顿午饭外卖,成为CV视觉前沿弄潮儿!

CVPR 2022 | 25+方向、最新50篇GAN论文

 ICCV 2021 | 35个主题GAN论文汇总

超110篇!CVPR 2021最全GAN论文梳理

超100篇!CVPR 2020最全GAN论文梳理

拆解组新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

8b4fa1d4ce9a0dd468e03902111510ed.png

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值