论文解读：利用结构隐代码的隐神经表示方法来合成动态人体的新颖视角-CSDN博客

本文链接：https://blog.csdn.net/CSS360/article/details/126389529

该论文提出了一种名为NeuralBody的方法，用于从稀疏多视点视频中合成人体的新颖视角图像。通过结合结构隐代码和形变网格，该模型能够在稀疏视角下学习并生成高质量的3D人体表示。方法包括结构隐代码、代码扩散、透明度和颜色回归以及体渲染四个步骤。实验结果显示，NeuralBody在稀疏视角下的表现优于现有方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

从稀疏多视点视频合成表演者新颖视角图像。数据输入是通过同步的RGB相机捕获的表演者视频。体神经捕获表演者的3D几何和外表，用来进行3D重建和新颖视角合成。

01 摘要

本论文主要解决在稀疏排列相机情况下，捕捉人体来合成新颖视角图像。一些最近的工作在稠密的输入视角下利用3D场景隐神经表达方法，可以合成效果较好的视角图像。然而，当视角较为稀疏情况下，学习效果较差。为解决这个错乱问题，作者在视频帧上整合观察结果。最后，作者提出了NeuralBody，一个新的人体表示方法。该方法假设不同帧上学习到的神经表示共享，锚定到一个可变网格的隐代码集上，以便跨帧观察能够自然集成。这个形变网格也提供几何来指导网络去学习更有效的3D表示。代码和数据集地址https://zju3dv.github.io/neuralbody/

02 方法

使用结构隐代码的隐表示流程图。（a）结构隐代码输入到SparseConvNet，能够输出一个隐代码体。这个过程将定义在曲面上的输入代码扩散到三维空间。（b）对任意3D点，它的隐代码通过隐代码体上临近的顶点三线性差值获得，并通过MLP网络进行透明度和颜色回归。

体神经

给定一个表演者稀疏多视角的视频，生成表演者自由视点视频。首先需要对相机进行预标定，然后对每张图像获得人体前景mask，背景图像像素设置为0。本论文提出的模型流程总共包含四部分：附着在形变人体模型表面的结构隐代码集；在表面周围任意位置的隐代码能够通过代码扩散处理获得；通过神经网络解码出稠密度和颜色值；通过体神经渲染方式获得任意视点的图像。

结构隐代码

为了控制隐代码的空间位置，作者将这些隐代码锚定到一个形变人体模型SMPL。SMPL函数输出一个由6890顶点组成的网格。评估每帧多视角图像下的SMPL参数，隐代码的空间位置使用估计参数进行变换，来做稠密度和颜色回归。

代码扩散

隐场分配稠密度和颜色到3D空间中的每个点，在连续3D位置查询隐代码。这个可以通过三线性插值实现。然而，因为结构隐代码在3D空间中是稀疏的，直接插值隐代码将会导致大部分3D点为零向量。为解决这个问题，作者将定义在表面的隐代码扩散到附近3D空间中。

作者选择SparseConvNet来有效处理结构隐代码，并输出一个隐代码体。因为代码扩散不应该受人在世界坐标系的位置和方向影响，作者转化代码位置到SMPL坐标系统下。代码扩散也将结构隐代码的全局和局部特征统一考虑，帮助作者学习隐场。3D空间点x的隐代码为：