头部姿态估计--HeadDiff: Exploring Rotation Uncertainty With Diffusion Models for Head Pose Estimation

最新推荐文章于 2024-09-17 16:52:57 发布

不囍IU

最新推荐文章于 2024-09-17 16:52:57 发布

阅读量872

点赞数 26

分类专栏： # Paper 文章标签：人工智能

本文链接：https://blog.csdn.net/qq_51221943/article/details/137507206

版权

Paper 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

HeadDiff提出了一种利用扩散模型在SO(3)空间中处理头部姿态估计的反向过程，通过逐步去噪和循环一致性增强鲁棒性。它解决了传统方法在旋转流形建模上的局限，适用于野外条件下的面部姿态估计。

摘要由CSDN通过智能技术生成

标题：HeadDiff: Exploring Rotation Uncertainty With Diffusion Models for Head Pose Estimation

发布时间： 2024- -IEEE Transactions on Image Processing
论文链接： 若有需要，记得私信我~~

背景知识：

SO(3)：作为一个刚体位姿的构造，本质是一个三维的特殊正交矩阵；但是在SO(3)空间中缺乏heart kernal的封闭形式表达，故不能获得欧几里得空间上的高斯分布。
heart kernal：在给定时间内，一个随机游走（如布朗运动）从起点到某点的概率分布，在欧几里得空间中，热核描述是高斯分布，均值为起点、方差与时间成正比，但在SO(3)空间中无法达到上述的heart kernal的封闭形式表达。
解决方法：本文利用SO(3)空间中各向同性高斯分布定义旋转分布即SO(3)的高斯分布。
对于头部姿态估计的任务中，初始的姿态分布视为high-uncertainty information，本文提出了SO(3)上扩散的去噪过程。通过建立切线空间和流形之间的双向映射，沿着测地线逐步对旋转表示进行去噪，最终得到准确的姿态分布。

详细解释：
在概率去噪扩散模型中，通过对标准正态分布进行缩放，来估计噪声随机部分，然而缩放后的分布在SO(3)空间中插值会产生问题，因为缩放后的值不能映射到SO(3)的旋转矩阵上。
在SO(3)旋转矩阵的梯度是一个向量场所以定义高斯分布十分困难，故定义一个切线空间，切线空间是流形在每一点的局部线性近似，然后使用指数映射将这个样本从切线空间映射到SO(3)空间，当高斯分布 $\epsilon$ 足够小的时候，高斯分布在切线空间中的分布接近于SO(3)中空间的旋转性质。

摘要：

本文提出了一种概率回归扩散模型用于头部姿态估计，称为HeadDiff，该模型特别针对旋转不确定性进行了处理，尤其是在野外条件下捕捉到的面部图像。与传统的图像到姿态的方法不同，这些方法无法明确建立头部姿态的旋转流形，HeadDiff旨在通过扩散过程确保姿态旋转，并同时迭代地细化映射过程。具体来说，最初将头部姿态估计问题形式化为一个反向扩散过程，定义了一个在流形上逐步去噪的范式，通过将大的差距分解为中间步骤来探索不确定性。此外，HeadDiff通过编码旋转表示中的不相干信息，配备了各向同性高斯分布。最后，通过循环一致性约束学习面部最近邻的关系，以应对不同形状变化的鲁棒姿态估计。

方法部分：

本研究通过扩散去噪过程提高头部姿态估计的准确性，通过逐步建模SO(3)空间中的不确定性分布来精确预测头部姿态，下图为HeadDiff算法流程示意图所示。模型特别针对在野外条件下捕获的人脸图像中的旋转不确定性进行了处理。传统的图像到姿态的方法无法显式地建立头部姿态的旋转流形，而HeadDiff通过扩散过程确保姿态旋转，并同时迭代地细化映射过程。使用各向同性的高斯分布而不是旋转矩阵的原因在于，旋转矩阵虽然能够表示头部的姿态变化，但是它们存在于非欧几里得的SO(3)流形空间中，这使得直接对它们进行建模变得不切实际。相比之下，各向同性的高斯分布在SO(3)上定义了一种概率分布，可以有效地捕捉旋转的不确定性，并且能够通过扩散过程进行建模和迭代细化。
在这里插入图片描述
在头部姿态估计的扩散模型中，我们的目标是在SO(3)空间中获得连续且低不确定性的头部姿态分布。在定义了SO(3)上的去噪过程之后，我们通过沿测地线插值旋转角度来扩展我们的旋转表示。换句话说，我们可以通过在初始分布和各向同性高斯分布之间插值扩散过程来定义任意时间步的分布，以实现以下目标：
在这里插入图片描述
分别遵循 DDPM 的定义进行正向过程和反向过程：

在SO(3)空间中，我们通过正向扩散过程逐步引入噪声以增加头部姿态分布的不确定性，并训练模型的去噪能力。反向扩散过程则从高不确定性状态开始，通过非均匀各向同性高斯分布进行有效采样，逐步减少噪声以对齐目标分布。为了解决姿态模糊问题，引入循环一致性模块作为中间约束，通过选择K个邻居构建候选集合，增强特征表示的多样性和丰富性，从而在不依赖真实标签的情况下捕捉高级语义信息。使用队列管理候选集合，确保每个元素都具有有效的投影特征表示。最近邻投影特征的表达式如下：
在这里插入图片描述
从技术上讲，我们使用对比学习损失来约束 K 个潜在候选邻居，具体如下：

为了进一步为中间过程提供监督信号，我们向模型提供了额外的输入，包括初始各向同性高斯分布和来自软邻居编码器κ_θ的人脸的软邻居。因此，我们将更新后的人脸软邻居 Fc=κθ(NN(x_i,C)×x_i)和初始样本y_t编码成姿态一致性信息，并将其注入到去噪过程中。每个时间步的逆过程可以表示如下：

总结和展望：

HeadDiff是一种利用扩散去噪技术进行头部姿态估计的方法，通过逐步模拟SO(3)空间中的姿态不确定性分布来准确预测头部姿态。该方法首先利用图像特征和轴角创建初始的高斯分布，然后在正向过程中添加噪声，逆过程则减少噪声以回归到低不确定性的目标分布。HeadDiff在多个数据集上的表现超越了现有技术，未来研究将致力于进一步优化模型，提升准确性和适应性。

（注：具体实验部分，如果大家有兴趣的话请直接查看原文~~）