PIFu: Pixel-Aligned Implicit Function for High-Resolution Clothed Human Digitization

时间:2019

作者:Shunsuke Saito,University of Southern California etc.

Abstract

通过使用Pixel-Aligned Implicit Function,本文提出了一种端到端的深度学习方法,用于数字化高度详细的穿着衣服的人,该方法可以从单个图像和多个输入图像推断3D表面和纹理。

1.与现存的三维深度学习的方法相比,PIFu能产生高分辨率的表面,包括基本上看不见的区域,如人的背部;

2.PIFu不像一些体素表示,它具有内存效率,而且能够处理任意拓扑结构,使生成的表面与输入图片空间对齐;

3.先前的技术只能处理单一图像或者多视角,而PIFu可以处理任意数量的视角

Introduction

1.虽然体素表示可以以全卷积的方式应用,但表示的内存密集型本质上限制了其生成精细比例细节曲面的能力;

2.基于全局表示的推理技术内存效率更高,但不能保证输入图像的细节得到保留;

3.基于隐函数的方法依赖图像的全局上下文来推断整体形状,其可能与输入图像不精确对齐。

4.PIFu以全卷积的方式将像素级的单个局部特征与整个对象的全局上下文对齐,并且不需要像在基于体素的表示中那样高内存使用率;

5.我们训练编码器学习图像中每个像素的单独特征向量,该特征向量考虑了相对于其位置的全局上下文。给定每像素特征向量和沿此像素传出的摄影机光线指定的z深度,我们学习一个隐式函数,该函数可以分类与此z深度对应的3D点是在曲面内部还是外部。我们的特征向量在空间上将全局3D曲面形状与像素对齐,这允许我们保留输入图像中存在的局部细节,同时推断未知区域中可能存在的细节

6.PIFu通过像素对齐的图像特征而不是全局特征学习三维空间上的隐式函数,这使得学习的函数能够保留图像中存在的局部细节。PIFu的连续性使我们能够以高效内存的方式生成具有任意拓扑结构的详细几何图形。此外,PIFu可以作为一个通用框架,可以扩展到各种共域,如RGB颜色。

Method

PIFu:Pixel-Aligned Implicit Function 

PIFu由一个全卷积图像编码器g和由MLPs表示的的连续隐式函数f组成:

X为三维点,x为点X投影到图像坐标系的点,

F(x)为在x点处的图像特征,z(X)为在相机坐标空间中X点对应的深度值;

由于X的二维投影是在连续空间而不是离散空间中定义的,因此我们使用双线性采样获得像素对齐特征F(x)。

Digitization Pipeline:

1)对于表面重建的PIFu预测穿着衣服的人的连续内外概率场,其中等值面很容易被提取;

2)对于纹理推理的PIFu输出一个在表面几何三维点处的RGB值,使得在自遮掩表面区域和任意拓扑形状使用纹理推理。

1.Single-view Surface Reconstruction

损失函数: 

F_{V}=g(I(x))是从编码器g在二维图像投影x处得到的图像特征,

n为抽样点的个数。

给定一对输入图像和与输入图像在空间上对齐的对应3D网格,通过上式联合更新图像编码器g和PIFu f_{v}的参数。

在推理过程中,我们在3D空间上对概率场进行密集采样,并使用Marching Cube算法提取阈值为0.5的概率场等值面。

Spatial Sampling:

1)仅仅使用均匀采样,会使得采样点偏离等值面太远,产生不好的预测;

2)若只使用基于表面几何的自适应采样,容易导致过拟合现象;

结合均匀采样和基于表面几何的自适应采样。首先在表面几何体上随机采样点,并为x、y和z轴添加正态分布N(0,σ)(在我们的实验中σ=5.0 cm)的偏移,以扰动它们在曲面周围的位置。然后将这些采样点和在边界框内的均匀采样点以16:1的比例结合起来。

2.Texture Inference

损失函数:

C(X_{i})是在表面点X_{i}\epsilon \OmegaRGB的GT值。

但是这样会导致严重的过拟合现象,因为fc不仅需要学习表面上的RGB颜色,还需要学习物体的底层3D表面,以便fc能够在推理过程中推断出具有不同姿势和形状的不可见表面的纹理。

于是对上式做了一些修改:

X_{i}^{'}=X_{i}+\epsilon \cdot N_{i}

首先,我们使用为表面重建FV学习的图像特征对图像编码器进行纹理推断。这样,即使看不见的对象具有不同的形状、姿势或拓扑,图像编码器也可以专注于给定几何体的颜色推断。此外,我们还引入了一个偏移量\epsilon \sim N(0,d)到表面法线N上的表面点,这样不仅可以在精确表面上定义颜色,还可以在其周围的三维空间上定义颜色。 

3.Multi-View Stereo

 

1)函数f_{1}将每个视角点i的图像特征F_{i}(x_{i})和深度值z_{i}(X)编码为潜在特征嵌入\Phi _{i},这允许我们从所有视图中聚合相应的像素特征;

2)函数f_{2}将融合后得到的潜在特征嵌入\Phi \bar{}=mean(\Phi _{i})映射为目标隐式场s(曲面重建的内外概率和纹理推断的RGB值)。潜在嵌入的可加性允许我们合并任意数量的输入。

潜在特征\Phi \bar{}由每个视角的潜在特征\Phi _{i}通过平均池化融合得到:\Phi \bar{}=mean(\Phi _{i})

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值