DiffPose: Toward More Reliable 3D Pose Estimation解析
论文链接:https://arxiv.org/pdf/2211.16940.pdf
论文代码:https://github.com/GONGJIA0208/Diffpose
项目网址:https://gongjia0208.github.io/Diffpose/
论文出处:2023 CVPR
论文单位:新加坡科技与设计大学
摘要
- 由于固有的模糊性和遮挡,单目三维人体姿态估计具有很大的挑战性,这往往导致高度的不确定性和不确定性。
- 另一方面,扩散模型(diffusion models) 最近成为从噪声中生成高质量图像的有效工具。
- 受其能力的启发,我们探索了一种新的姿态估计框架(DiffPose),该框架将3D姿态估计制定为反向扩散过程。
- 我们将新颖的设计融入到我们的DiffPose中,以促进3D姿态估计的扩散过程:一个姿态不确定性分布的姿态特定初始化,一个基于高斯混合模型的正向扩散过程,以及一个情境条件下的反向扩散过程。
- 我们提出的DiffPose在广泛使用的姿态估计基准Human3.6M和MPI-INF-3DHP上显著优于现有方法。
1. 简介
-
三维人体姿态估计是一项重要的任务,旨在从图像或视频中预测人体关节的三维坐标,它在增强现实、手语翻译和人机交互等领域有着广泛的应用,近年来引起了人们的广泛关注。
-
一般来说,主流的方法是分两个阶段进行三维姿态估计: 首先使用二维姿态检测器获得二维姿态,然后进行二维到三维的提升 (其中提升过程是最近的研究关注的主要方面)。
-
然而,尽管取得了长足的进步,单目3D姿态估计仍然具有挑战性。
-
特别是,由于许多挑战,包括固有的深度模糊和潜在的遮挡,很难从单目数据中准确预测3D姿态,这往往导致高度的不确定性。
-
另一方面,**扩散模型(diffusion models)**最近作为一种生成高质量图像的有效方法而流行起来。
-
通常,扩散模型能够通过逐步去除随机(不确定)噪声的多个步骤生成与指定数据分布 (例如,自然图像) 相匹配的样本。
-
直观地说,这种渐进式去噪范式有助于将分布之间的巨大差距(从高度不确定的分布到确定的分布)分解为较小的中间步骤,从而成功地帮助模型收敛到平滑地从目标数据分布生成样本。
-
受到扩散模型的强大能力的启发,即使从具有高不确定性 (例如随机噪声) 的起点也能生成逼真的样本,在这里,我们的目标是解决3D姿态估计,这也涉及处理不确定性(3D姿态)。
-
在本文中,我们提出了一种新的框架DiffPose,它代表了一种新的基于扩散的3D姿态估计方法,它也遵循了主流的两阶段pipeline。
-
简言之,DiffPose 建模3D姿态估计流程作为一个反向扩散过程,其中我们逐步将具有高不确定性的3D姿势分布转换为具有低不确定性的3D姿势。
-
直观地,我们可以将确定的 ground-truth 3D姿态视为热力学背景下的粒子,粒子在开始时可以整齐地聚集在一起,形成一个清晰的姿态,不确定性低; 最后,这些粒子在空间中随机扩散,导致高度不确定性。
-
粒子从低不确定度向高不确定度演化的过程称为正向扩散过程。
-
姿态估计任务旨在执行与此过程恰恰相反的过程,即反向扩散过程。
-
我们接收到一个在三维空间中不确定的初始二维姿态&