PIFuHD 笔记（单视图人体重建）

最新推荐文章于 2024-08-29 08:01:36 发布

fishslot

最新推荐文章于 2024-08-29 08:01:36 发布

阅读量2.4k

点赞数 2

分类专栏：我的论文笔记文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/goryghost/article/details/126863287

版权

我的论文笔记专栏收录该内容

30 篇文章 4 订阅

订阅专栏

PIFuHD 笔记（单视图人体重建）

《PIFuHD: Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization》

主页：https://shunsukesaito.github.io/PIFuHD/

论文：https://arxiv.org/abs/2004.00452

这里有一篇解读

【三维重建】PIFuHD:Multi-Level Pixel-Aligned Implicit Function for High-Resolution 3D Human Digitization_Swocky的博客-CSDN博客

差不多就是翻译了一下，感觉还有点机翻，有些地方他自己也没读太懂，不用太仔细看

感觉原文也写的不咋样，同一个东西非要换好几种名字来表述，表述不清晰，逻辑不清晰，重要线索分散在文章各处，看得难受。

目标是单视角图片重建三维人体。

看起来这个方法只生成三维网格，不能渲染出材质，（不过想做材质估计也不难）

相机视角永远保持正面，不管是训练还是推理。这感觉有点像是 PIFu 只是一个深度场

先用 pix2pixHD 产生正面和背面的法线图，然后输入 pixel-aligned 的深度预测器。（具体看图）

感觉完全是靠 pixel-aligned特征来推测三维结构的（不过也确实，毕竟是单视角输入，感觉上也没别的特征能用了）

隐式函数输入的时候没有做位置编码，是直接把 z 输到网络里的。不过即使要编码，也就 z 需要编码，xy都用来提 pixel-aligned特征了，MLP 压根不知道 xy 是多少。

摘要

当前很多模型在重建细节时效果都不好，我们认为这来源于两种冲突的需求：

正确的预测需要较大的上下文，精确的预测需要高分辨率。

由于内存限制，先前的工作都使用了低分辨率的图像，所以生成的3D模型分辨率不高。

我们提出了一种端到端的多层次的可学习架构。

coarse层次观察到低分辨率的完整图像，并专注于整体的结果。coarse层次为 fine层次提供上下文。fine层次观察到高分辨率的图像，并预测非常细节的几何。

我们的方法通过充分利用1k分辨率的图像，在单视角人体形状重建上取得了 SOTA （2020年4月）

方法

用了两个图像特征提取器，一个输入 512512 输出 128128 ，一个输入 10241024 输出 512512 。

为了提升质量和可信度，先在图像空间预测正面和背面的法线图，然后把法线图作为网络的额外输入。
在这里插入图片描述

Pixel-aligned 隐式函数（PIFu）

PIFu 的目标是建立一个函数 $f (X)$ 对三维相机空间中的任意一个点 $X=(X_x,X_y,X_z)\in \mathbb{R}^3$ ，实现以下功能：

$f(\mathbf{X}, \mathbf{I})= \left\{\begin{array}{ll} 1 & \text { 若 } \mathbf{X} \text { 在网格内部 } \\ 0 & \text { otherwise } \end{array}\right.$

其中 $I$ 是单张 RGB 图像。

PIFu 使用神经网络对 $f$ 进行建模，使用端到端的方式训练。

定义投影函数 $\pi(\mathbf{X})=\mathbf{x} \in\mathbb{R}^{2}$ ，使用正交投影 $\mathbf{x}=\pi(\mathbf{X})=\left(\mathbf{X}{x}, \mathbf{X}{y}\right)$ 。

定义图像特征提取函数 $\Phi(\mathbf{x}, \mathbf{I})$

于是有：

$f(\mathbf{X}, \mathbf{I})=g(\Phi(\mathbf{x}, \mathbf{I}), Z)$

其中 $Z=\mathbf{X}_{z}$ 是射线方向的深度，由投影函数定义。

注意到同一条射线上的所有点的 $\Phi(\mathbf{x}, \mathbf{I})$ 是相同的，因此 $g$ 应该关注 Z 的变化，以消除歧义。

使用大型数据集 Renderpeople [34] （由数百个高质量扫描的3D人体网格渲染），以端到端的方式训练 $f$

在推理时，在空间内均匀采样，并使用 marching cubes [28] 算法，以 0.5 为置信阈值产生等值面。

多层次 Pixel-aligned 隐式函数

使用 1024*1024 的图片作为输入。

我们的模型由两个层次的 PIFu 模块组成：

一个 coarse 层次（类似 PIFu），专注于整合全局几何信息，输入降采样的 512512 图片，产生 128128 的 backbone图像特征。
一个 fine 层次，专注于增加更微妙的细节，输入 10241024 的图片，产生 512512 的 backbone图像特征。
值得注意的是，fine层次模型并不输入绝对深度，而是输入 coarse 层次提取出的 3D embedding。

在这里插入图片描述

我们将 coarse 层次定义为：

$f^{L}(\mathbf{X})=g^{L}\left(\Phi^{L}\left(\mathbf{x}_{L}, \mathbf{I}_{L}, \mathbf{F}_{L}, \mathbf{B}_{L},\right), Z\right)$

其中 $\mathbf{I}_{H}, \mathbf{F}_{H}, \mathbf{B}_{H}$ 表示 512*512 分辨率下的输入图片、正面法线图、背面法线图。

$\mathbf{x}_{L} \in \mathbb{R}^{2}$ 表示 $\mathbf{X}$ 在 $\mathbf{I}_L$ 上的投影位置。

fine 层次定义如下：

$f^{H}(\mathbf{X})=g^{H}\left(\Phi^{H}\left(\mathbf{x}_{H}, \mathbf{I}_{H}, \mathbf{F}_{H}, \mathbf{B}_{H},\right), \Omega(\mathbf{X})\right)$

其中 $\mathbf{I}_{H}, \mathbf{F}_{H}, \mathbf{B}_{H}$ 表示 1024*1024 分辨率下的输入图片、正面法线图、背面法线图。

$\mathbf{x}_{H} \in \mathbb{R}^{2}$ 表示 $\mathbf{X}$ 在 $\mathbf{I}_H$ 上的投影位置。在本例中， $\mathbf{x}_{H}=2 \mathbf{x}_{L}$ 。

$\Omega(\mathbf{X})$ 是 coarse层次提取出的 3D embedding ，实际上就是 $g^L$ 的中间层输出。

$\Phi^L$ 和 $\Phi^H$ 的一个关键区别是， $\Phi^H$ 的感受野不能覆盖整张图片，因为使用了全卷积结构，可以看作是一个滑动窗口。

因为 fine层次从 coarse 层次的中间层获取 3D embedding，理论上全局重建质量不会由于感受野减小而退化（因为 coarse 已经看过全局了，最差也应该和 coarse 一样，毕竟已经拥有了coarse后续推理的所有信息，而且还多了一些局部高分辨率的信息，理应更好）。

另外，fine层次不需要处理 normalization （我估计就是说让每个 patch 之间深度的数量级一致），因此不需要看到整个图像，这允许我们使用裁剪后的图像来训练，可以省内存，这对高分辨率来说是必要的。

从正面推测背面（通过产生法线图）

从正面推测背面是一个病态问题。由于歧义和问题的多模态本质（这啥？），模型往往会预测出平滑且没什么特征的背面。

我们发现，如果我们将部分推理问题转移到特征提取阶段，网络可以产生更清晰的重构几何。于是，我们预测法线图，并且将其输入到 pixel-aligned预测器。

我们使用 pix2pixHD [44] 来预测正面和背面的法线，将RGB映射为法线图。

与最近的方法 [30, 11, 39] 相似，我们发现只要问题的领域限制的足够小（比如预测穿衣服的人的背面），这个方法就能生成看起来可信的结果。

训练：损失函数和表面采样

使用的损失函数对最终的重建细节影响很大。

相比于 PIFu 中使用一个平均 L1 或 L2 损失，我们在一系列采样点上使用一个 extended Binary Cross Entropy (BCE) loss [51] （也就是在 DeepHuman 中使用的）

$\begin{aligned}\mathcal{L}_{o} &=\sum_{\mathbf{X} \in \mathcal{S}} \lambda f^{*}(\mathbf{X}) \log f^{\{L, H\}}(\mathbf{X}) \\&+(1-\lambda)\left(1-f^{*}(\mathbf{X})\right) \log \left(1-f^{\{L, H\}}(\mathbf{X})\right)\end{aligned}$