姿态估计：DiffPose

最新推荐文章于 2025-03-09 16:35:17 发布

AIRV_Gao

最新推荐文章于 2025-03-09 16:35:17 发布

阅读量1.5k

点赞数 21

分类专栏：论文笔记文章标签：姿态估计深度学习

本文链接：https://blog.csdn.net/gaoqing_dream163/article/details/135188484

版权

DiffPose是一种新型的3D姿态估计框架，受到扩散模型的启发，将姿态估计视为反向扩散过程。它通过姿态不确定性分布的特定初始化、基于高斯混合模型的正向扩散和情境条件的反向扩散，解决了3D姿态估计中的不确定性问题。DiffPose在Human3.6M和MPI-INF-3DHP基准上表现出优越性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DiffPose: Toward More Reliable 3D Pose Estimation解析

摘要
1. 简介
2. Related Work
- 2.1 3D Human Pose Estimation
- 2.2 去噪扩散概率模型(DDPM)
3. 扩散模型的背景
4. DiffPose

论文链接：https://arxiv.org/pdf/2211.16940.pdf
论文代码：https://github.com/GONGJIA0208/Diffpose
项目网址：https://gongjia0208.github.io/Diffpose/
论文出处：2023 CVPR
论文单位：新加坡科技与设计大学

摘要

由于固有的模糊性和遮挡，单目三维人体姿态估计具有很大的挑战性，这往往导致高度的不确定性和不确定性。
另一方面，扩散模型（diffusion models） 最近成为从噪声中生成高质量图像的有效工具。
受其能力的启发，我们探索了一种新的姿态估计框架(DiffPose)，该框架将3D姿态估计制定为反向扩散过程。
我们将新颖的设计融入到我们的DiffPose中，以促进3D姿态估计的扩散过程：一个姿态不确定性分布的姿态特定初始化，一个基于高斯混合模型的正向扩散过程，以及一个情境条件下的反向扩散过程。
我们提出的DiffPose在广泛使用的姿态估计基准Human3.6M和MPI-INF-3DHP上显著优于现有方法。

1. 简介

三维人体姿态估计是一项重要的任务，旨在从图像或视频中预测人体关节的三维坐标，它在增强现实、手语翻译和人机交互等领域有着广泛的应用，近年来引起了人们的广泛关注。
一般来说，主流的方法是分两个阶段进行三维姿态估计: 首先使用二维姿态检测器获得二维姿态，然后进行二维到三维的提升 (其中提升过程是最近的研究关注的主要方面)。
然而，尽管取得了长足的进步，单目3D姿态估计仍然具有挑战性。
特别是，由于许多挑战，包括固有的深度模糊和潜在的遮挡，很难从单目数据中准确预测3D姿态，这往往导致高度的不确定性。
另一方面，**扩散模型（diffusion models）**最近作为一种生成高质量图像的有效方法而流行起来。
通常，扩散模型能够通过逐步去除随机(不确定)噪声的多个步骤生成与指定数据分布 (例如，自然图像) 相匹配的样本。
直观地说，这种渐进式去噪范式有助于将分布之间的巨大差距(从高度不确定的分布到确定的分布)分解为较小的中间步骤，从而成功地帮助模型收敛到平滑地从目标数据分布生成样本。
受到扩散模型的强大能力的启发，即使从具有高不确定性 (例如随机噪声) 的起点也能生成逼真的样本，在这里，我们的目标是解决3D姿态估计，这也涉及处理不确定性(3D姿态)。
在本文中，我们提出了一种新的框架DiffPose，它代表了一种新的基于扩散的3D姿态估计方法，它也遵循了主流的两阶段pipeline。
简言之，DiffPose 建模3D姿态估计流程作为一个反向扩散过程，其中我们逐步将具有高不确定性的3D姿势分布转换为具有低不确定性的3D姿势。
直观地，我们可以将确定的 ground-truth 3D姿态视为热力学背景下的粒子，粒子在开始时可以整齐地聚集在一起，形成一个清晰的姿态，不确定性低; 最后，这些粒子在空间中随机扩散，导致高度不确定性。
粒子从低不确定度向高不确定度演化的过程称为正向扩散过程。
姿态估计任务旨在执行与此过程恰恰相反的过程，即反向扩散过程。
我们接收到一个在三维空间中不确定的初始二维姿态&

最低0.47元/天解锁文章