深度隐式表达系列 (二)

最新推荐文章于 2024-12-18 16:28:17 发布

深蓝学院

最新推荐文章于 2024-12-18 16:28:17 发布

阅读量1k

点赞数

本文链接：https://blog.csdn.net/soaring_casia/article/details/116653263

版权

本文介绍了深度隐式表达(Deep Implicit Representation, DIR)在3D重建领域的两项重要工作——PIFu和SRN。PIFu通过单张图片输入生成带有纹理的3D模型，SRN则仅依赖RGB信息实现场景的3D重建。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

*本文是文章的第二部分，请大家持续关注原创作者文章~

接着上一次的话题，我们再一次使用下面这张图来阐述深度隐式表达(Deep Implicit Representation, DIR) 的核心思想：

上一次我们提到的两篇工作，借助神经网络良好的插值能力，将物体的几何信息嵌入到神经网络的参数中，取得了 impressive 的结果。那么是不是可以进一步的将光度信息或者纹理信息也考虑进来呢？

顺着这个思路，我们为大家带来两篇文章 (PIFu[3] 以及 SRN[6])，希望能帮助大家更好的理解深度隐式表达方法。

首先简单介绍一下两篇文章的背景，这些内容其实也是学术中比较有意思的部分。PIFu 是黄锃博士在 2019 年 ICCV 上发表的工作，如果你不了解这项工作没有关系，你可以看一下这篇文章（见文末参考链接a）去感受一下黄博酷炫的答辩现场。

在实时人体重建这个方向，黄博及其 co-author 发表了多篇顶会文章，当然还必须提到的是马普所以及清华刘烨斌老师和于涛博士的一系列工作。SRN 在国内的博客上很少见到，感觉不是很受关注的样子。

SRN 的作者Vincent Sitzmann 也是不得不提的，NeRF 原文中是这样提到的:

“Note that SRN is a better-performing followup to DeepVoxels by the same authors,which is why we do not include comparisons to DeepVoxels.”

这两篇工作的作者都是 Vincent Sitzmann，并且之后我们会着重介绍的 SIREN[5] 的一作也是他，因此希望大家对大神保留一些印象，关于 DIR 他也专门维护了一个仓库（见文末参考链接b）。

下面我们具体介绍这两篇文章。

PIFu

首先看一下 PIFu 做了一件什么事：

输入图片 (需要 mask)，输出对应的 mesh 模型，并且可以贴纹理。有了之前 OccNet 的基础，接下来的理论应该不难理解。

1.1 Geometry

对于空间中任意一个 3 维点，对于一个给定的相机位姿，可以得到其在相机坐标系下的投影 x = π(X) 以及对应的深度值 z，原文的formulation 如下：

这里原文解释的 F(x) = g(I(x)) 我不太认同，在看了之后他们自己之后的改进工作 [1] 和 PIFuHD[4] 以及于涛博士 [2] 的一篇相关文章之后可以确定这里表述是有误的，这里我们改为：F(x) = g(x, I)，表示 x 对应的图像特征，其中 I 表示输入的图像。

输出的 s 可以参考 DeepSDF 以及 OccNet 去定义，只要你找好合适的 label 就好，PIFu 选用的是是否被占据的概率。

稍加解读，这里 x 对应的射线上的所有点，其投影下来的图像特征都为 F(x)，因此需要输入深度值 z 做区分。关于如何产生 ground truth 其实有一些专门研究这一问题的文章，使用 DIR 方法的文章也各自提出了一些采样的方式，这是属于数据层面的内容了，我们也不过深研究了，需要 3D ground truth 监督的方式本身就挺受诟病的。

PIFu 的采样方式是表面附近采样与空间均匀采样结合起来使用的，对这部分感兴趣的朋友可以参考他的 ablation study。

1.2 Texture

首先要注意纹理和渲染不是一回事。纹理是物体自身属性，渲染是需要考虑材质光照等等一系列因素的。比较 Naive 的做法是将 f(F(x), z) 的输出直接换成 RGB，ground truth 获取的方式也比较明确。但是这样会造成过拟合，于是作者改用如下方式进行纹理的训练：

关于这部分解读可以参考这篇文章（见文末参考链接c）简单的讲就是缓解网络压力，使 fc 只需要关注颜色信息，而不需要去关注潜在的 3D 信息。

1.3 Multi-View

多视角的表面重建部分是比较好理解的，其实就是将空间中的一个点投影到各个视角下，得到对应的特征，接着将这些特征进行聚合，PIFu 使用 average pooling 的操作进行聚合，max pooling 其实也可以，骚一点用个 self-attention 都行，效果理论上还会更好。聚合后的特征再回归到占据概率或者颜色值即可。

SRN

接下来我们来聊聊 SRN 这篇文章。我们之前提到的工作都需要 3D 的ground truth 做监督，而这样的 label 在仿真环境都是很难获取的，更不用说在真实场景了。

如果只使用 RGB 的信息做监督，那事情将变得简单许多，当然算法也会相对复杂一些，需要引入更多的领域知识。SRN 虽然在现在看来已经算不上 state-of-the-art 了，但是这不影响它的趣味性。

SRN 假设图像的颜色来自于物体的表面，一般被称为 Surface Rendering，因此重点就在于如何找到光线与物体表面的交点。给定一些列的图像以及对应的内外参，光线从物体表面射入相机光心，我们不关心光线的入射方式，我们只关心光源在哪里以及颜色信息。

根据已有信息，我们首先看看能列哪些表达式。根据小孔成像模型：

这里 d > 0 表示点的深度信息。要求解的问题是：

这里 Ω 表示物体的表面。根据 DIR 的思想，我们假设有这样一个函数 Φ:

这里表示空间中点的坐标，表示特征，我们希望它包含一些几何信息以及颜色信息。SRN 使用 LSTM 来模拟 sphere tracing 的过程：

示意图如下：

最终得到的输入到另一个网络中得到 RGB 的颜色值，这里的网络可以是一个简单的 MLP，SRN 为了增加泛化性使用了一个 pixel generator，其实就是之前在 DeepSDF 中介绍过的 Auto-Decoder 的变种，感兴趣的读者可以自行阅读原文。

结语

PIFu 和 SRN 将 DIR 从几何信息拓展到了纹理属性以及颜色属性，我们有理由相信，DIR 方法可以 encode 更复杂的属性，关键在于正确的引入相关的领域知识。SRN 使用 LSTM 模拟 ray marching 的过程属实是个很好的例子。这两篇工作都是 19 年顶会高分论文，之后也有很多改进工作，希望本文能为大家带来一些启发。

参考文献

[1] R. Li, Y. Xiu, S. Saito, Z. Huang, K. Olszewski, and H. Li. Monocularreal-time volumetric performance capture. In European Conference onComputer Vision, pages 49–67. Springer, 2020.

[2] Z. Li, T. Yu, C. Pan, Z. Zheng, and Y. Liu. Robust 3d self-portraits in seconds. In Proceedings of the IEEE/CVF Conference on ComputerVision and Pattern Recognition, pages 1344–1353, 2020.

[3] S. Saito, Z. Huang, R. Natsume, S. Morishima, A. Kanazawa, and H. Li.Pifu: Pixel-aligned implicit function for high-resolution clothed humandigitization. In Proceedings of the IEEE/CVF International Conferenceon Computer Vision, pages 2304–2314, 2019.

[4] S. Saito, T. Simon, J. Saragih, and H. Joo. Pifuhd: Multi-level pixelaligned implicit function for high-resolution 3d human digitization. InProceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 84–93, 2020.

[5] V. Sitzmann, J. Martel, A. Bergman, D. Lindell, and G. Wetzstein. Implicit neural representations with periodic activation functions. Advancesin Neural Information Processing Systems, 33, 2020.

[6] V. Sitzmann, M. Zollhöfer, and G. Wetzstein. Scene representationnetworks: Continuous 3d-structure-aware neural scene representations.arXiv preprint arXiv:1906.01618, 2019.

[7] 参考链接a：https://www.qbitai.com/2020/08/17603.html

[8] 参考链接b：https://github.com/vsitzmann/awesome-implicit-representations

[9] 参考链接c：

https://zhuanlan.zhihu.com/p/148509062