3D Human Body Reconstruction from a Single Image via Volumetric Regression 论文阅读
基于体积回归的单张图像3D人体重建
论文原文:https://arxiv.org/abs/1809.03770
Abstract
本文提出一种端到端的CNN,通过体积回归直接对3D人体进行重建。所提出的方法不需要形状模型的拟合,并且可以被训练为接受任意输入类型(比如关键点(landmark),图片或者分割掩膜(segmentation mask))。此外,不可见的部分(无论是自遮挡的还是其他遮挡的)仍然可以被重建,这是深度图回归(depth map regression)做不到的。我们提出的结果表明,在给定合适的训练数据集的情况下,我们的方法可以处理姿势变化和细致的重建。
关键词: 3D重建,人体重建,体积回归,VRN,单图重建
图1.在使用高质量详细训练集进行训练时,使用我们的方法得出的一些示例结果。
1 Introduction
3D重建是根据一张或多张2D图像预测3D几何形状的过程。在这项工作中,我们着重于从单个图像重建人体,包括已经被自身遮挡的不可见部分。我们的方法建立在[1]的基础之上,(论文阅读(1))中通过“体积回归网络”(VRN)直接从单个图像进行3D人脸重建。在本文中,相同的观点可以应用于其他可变形对象,尤其是人体。这带来了一系列在重建面部时不存在的挑战。尽管我们仍然只是重建单个类的对象,但是与脸部相比,身体具有更多的旋转轴。因此,人体重建通常被认为是一个非常困难的问题。
动机。 3D人体重建(通常是3D重建)所需的pipeline通常基于解决比较困难的非凸优化问题。也许3D人体重建的最常见方法是拟合形状模型。例如,[2]的最新方法使用优化算法(optimisation)来拟合2D身体关节的3D形状模型。但是,优化算法对初始化很敏感,并且很容易陷入局部最小值,这两种情况都会因遮挡和潜在的尺度变化而变形。
在这项研究中,我们的目标是显著降低标准3D人体重建技术的复杂性,以至于它可以容易的像分割任务一样处理。我们通过使用标准的空间CNN架构直接回归3D几何图形的体积表示来实现这一点,其中回归的体积结构在空间上与输入对齐。值得注意的是,我们不回归深度图;3D结构被回归为切片,然后根据它的体积表示用标准的表面提取算法复原,例如Marching Cubes[3]。总之,我们在这项研究中的主要贡献如下:
-
我们是第一个运用体积回归网络(VRN)[1]解决人体3D重建问题的,而不仅仅是人脸重建。
-
我们对[1]中描述的网络体系结构提出了一些改进,这些改进使性能显著提升。这些措施包括引入中间监督,使用更先进的残差模型以及通过减少残差模块的数量来增加沙漏模块的数量来改变网络结构。
-
我们证明了当在合适的数据集上训练时,VRN能够重建复杂的姿态。
-
最后,我们展示了在给定高质量训练数据的情况下,我们的模型可以仅从单个图像学习生成以前看不到的、高度详细的、完整的3D重建。据我们所知,没有其他方法能像我们这样获得如此高保真度和高可靠性的结果。
论文的剩余部分结构如下:首先,回顾了三维人体重建和人体姿态估计的相关工作。然后描述我们的方法,包括我们已经简要提到的体积表示(volumetric representation),接下来是数据集和训练过程。接下来,我们将讨论VRN的几个结构变体,然后是用姿势变体数据训练的网络的结果,但是没有什么细节。最后,我们将展示通过使用高度细致的数据训练模型而生成的结果。
2 Closely Related Work
在本节中,我们将概述近期常用的人体姿态估计方法(通常是人体重建的先决条件)和3D重建方法,这两种方法都是基于图像和关键点。
人体姿势估计。 所有现有的人体姿势估计方法都是基于CNN的。这些方法通常分为两类。第一种是使用L2(或类似的)损失( L2 loss )[4,5,6,7,8,9,10]直接回归关节的坐标。特别是,[5]通过结合2D预测与图像特征来估计3D姿势。在[6]中采用了自动编码器来约束姿势的合理性。类似地,[8]通过使用运动学模型来实现同样的目的。[9]在完整训练过程中使用综合数据,以确保使用准确的数据训练网络。然而,在[10]中,他们仅使用综合数据来扩充其现有的训练集。基于CNN的人体姿势估计的第二种方法是回归热图[11,12,13,14]。在[11]中,他们在视频中完成此操作。在[12]中,他们回归了3D热图,这与我们自己的工作类似。 [13]中描述了另一种基于时间的方法,其中2D关键点也首先细化为热图。基于部件的热图回归方法如[14]中所示。
在这项研究中,我们不打算将人体姿势估计为一组坐标。相反,我们旨在从单一图像重建人体的完整3D几何形状。这包括身体的任何遮挡的部位。但是,这样做时,我们可以选择使用人体姿势估算步骤中的信息,该信息作为16个通道(channel)提供给网络,每个通道都具有以相应关键点为中心的高斯分布。
图像重建。 许多人体重建方法从一幅或多幅图像中估计几何形状。例如,[15,16,17]拟合基于单个RGB或灰度图像的模型。特别是[16]通过分别估计每个身体部位的比例和姿态,将骨骼模型拟合到图像。在[17]中,它们拟合了一个形状模型,该模型由用户点击单独的身体部位初始化,并由一个分割掩膜辅助。在[15]中提出了另一种基于形状模型的方法,使用了随机优化步骤的SCRAPE模型[18]。在[19]中提出了一种用于重建的一般形状拟合方法,其中通过解决非线性优化问题,使用了两个高斯模型——一个用于形状,一个用于姿态。作者在人体和鲨鱼身上证明了这种方法。在[20]中,使用了包含大约400万个例子的kd树,使用单个图像和相应的关键点来查找相似的人体姿势。在[21]中描述了一种用于从单个图像拟合多实例模型的方法。
几种方法旨在仅使用通过人体姿态估计提取的关键点来估计3D几何形状[2,22]。特别是,SMPLify [2] (使用SMPL模型[23]),在[24]中被扩展为还包括来自分割掩码的进一步指导。然而,除非图像中的信息也被捕获,否则这种方法将永远无法回归更精细的细节。
除了前面提到的SCRAPE[18]和SMPL [23]之外,Dyna在[25]中提出了能够捕捉身体形状大幅度变化的形状模型,但没有从单个图像中进行拟合的方法。一种名为Total Capture的最新形状模型[26],可以捕捉身体的许多方面,但是这些方面通常被其他形状模型忽略,包括脸和手。
我们的工作与上述所有方法不同点在于,我们不回归形状模型的参数,也不直接回归顶点。此外,我们的方法完全跳过了模型生成步骤,这避免了在所有训练示例之间寻找密集对应的需要。相反,我们将问题限制在空间域,并使用CNN中的空间卷积直接回归3D结构,通过体积表示可以恢复完整的3D几何体。
3 Method
本节描述了我们提出的方法,包括体素化(voxelisation)和对齐规程(alignment procedure)。
3.1 Volumetric Regression
在这项研究中,我们的目标是从单张图像中重建人体的完整几何形状。有几种使用深度学习来估计几何的方法。第一种是使用自上而下(top-down)的网络直接回归顶点,如用L2损失训练的VGG [27]或ResNet[28]。这至少有两个缺点:首先,它需要重新采样的训练数据具有固定数量的顶点,这意味着要找到所有网格的所有顶点之间的对应关系。其次,更重要的是,训练一个网络来直接回归非常多的顶点是困难的。一种常见且更有效的替代方法是回归3D形状模型的参数。然而,由于这些参数的比例并不相等,因此有必要采用归一化方法,例如使用Mahalanobis距离对输出进行加权,这也被证明是使其良好工作的一个挑战[1]。此外,已知基于3D形状模型的方法擅长捕捉粗略形状,但不太擅长捕捉精细细节(在3D重建细节的情况下)。
为了消除上述的学习的挑战,我们通过使用标准卷积神经网络将3D重建问题约束到空间域来重构该问题。我们的方法可以被认为是一种图像分割,其输出是一组捕捉3D几何图形的切片。因此,在体系结构上,可以使用标准体系结构进行(比如说,语义)分割。根据[1]在人脸方面的工作,我们通过在体积表示中编码身体的几何形状来实现这一点。在该表示形式中,3D空间已经用固定的维度离散化。对象内部的空间被编码为值等于1的体素。所有其他空间(即背景或未知对象类别)用值等于零的体素编码。对于这个特殊的应用程序,我们的体积的尺寸是128 × 128 × 128,考虑到我们训练集中的详细程度,这是足够的(尽管我们在第6节中显示了更详细的结果,并且只略大一些体积)。这种表示的主要优点之一是它允许几何图形的不可见(自遮挡或其他)部分也被重建。在试图使用深度图回归来重建身体的方法中,情况并非如此。
在训练体积回归网络时要注意的最重要的方面之一是输入和输出必须在空间上对齐。简而言之,目标对象的2D投影在分割输入时应该做得合理(即使不是很好)。通过实验,我们发现只要姿势固定(即始终是正面的),就可以忽略空间对齐。但是,忽略空间对齐将严重影响该方法的性能。
当经过训练以接收来自人体姿势估计的指导后,关键点将作为单独的通道传递到网络,每个通道都包含一个以关键点位置为中心的高斯分布。高斯分布置信度的直径约为6像素。
3.2 Dataset and Voxelisation
虽然Human3.6M [29,30]确实包含了它自己的3D扫描,但它们与视频帧不对应。因此,我们通过在Human3.6M数据集上运行SMPLify [2]来生成训练数据。 SMPLify所需的关键点是使用[14]提供的代码生成的。拟合的网格以128×128×128的分辨率进行体素化。就深度而言,首先通过Z分量的平均值对齐网格。但是,通过实验,我们发现,只要Z对齐以一种看似合理的方式执行,并且在所有图像上都保持稳定,网络就将学会回归3D结构而不会出现问题。随机比例增强是在训练过程之前执行的,因为即时执行(对于3D体积)在占用CPU方面会非常苛刻。
不幸的是,使用SMPLify生成训练数据有一个副作用,无法回归手指或面部表情等特征。 SMPLify不会对它们建模,因此,它们的姿势在所有图像上都保持固定。在性能方面,它也成为瓶颈。我们在第6节中显示,使用不同的数据集,使用我们提出的方法也可以实现高质量的重建。
3.3 Training
我们使用RMSProp [31]优化训练端到端网络,其学习速率为
1
0
−
4
10^{-4}
10−4,在大约20个周期(epoch)后的40个周期降低为
1
0
−
5
10^{-5}
10−5。(一个epoch指代所有的数据送入网络中完成一次前向计算及反向传播的过程。)我们没有通过进一步降低学习率来观察是否提高性能。 2块NVIDIA 1080 Ti显卡对应的样本训练数量为6个(batch size)。在体素化期间,应用了随机比例增强。实时将比例增强应用于3D体积,这会占用大量CPU,并且会大大减慢训练过程。在训练过程中,对输入图像进行了增强。即时增强功能包括颜色通道缩放,随机平移和随机水平翻转。
4 Architecture
在本节中,我们将介绍我们探索过的几个架构选项作为[1]的扩展。我们的第一个网络与[1]中使用的网络相同,称为VRN-引导(VRN-Guided),这作为我们的基准网络。该网络在堆栈中使用两个Encoder-Decoder(“沙漏”)网络。除了本节中描述的更改外,我们遵循类似的设计。我们所有的架构都经过了与[1]中相同的损失函数的训练:
l
1
=
∑
w
=
1
W
∑
h
=
1
H
∑
d
=
1
D
[
V
w
h
d
log
V
^
w
h
d
+
(
1
−
V
w
h
d
)
log
(
1
−
V
^
w
h
d
)
]
,
(
1
)
l_1 = \sum_{w=1}^W\sum_{h=1}^H\sum_{d=1}^D[V_{whd}\log \hat V_{whd}+(1-V_{whd})\log(1-\hat V_{whd})], (1)
l1=w=1∑Wh=1∑Hd=1∑D[VwhdlogV^whd+(1−Vwhd)log(1−V^whd)],(1)
其中
V
^
w
h
d
\hat V_{whd}
V^whd是回归体积的体素{w,h,d}处的相应sigmoid输出。
4.1 Ours - Multistack
图2. Ours-Multistack网络。深蓝色框表示残差模块。每个Encoder-Decoder模块都有自己的损失函数,同时仍将功能传递给下一个模块。
该网络对VRN-引导的基准网络进行了以下更改。我们将残差模块的数量从四个减少到一半。这样,我们还将内存需求减少了一半,从而使堆栈中的沙漏模块数量可以从两个增加到四个。接下来,我们将VRN中使用的原始残差模块替换为[32]中提出的多尺度残差模块。我们还通过在结果部分中仅引入此组件来展示性能改进。最后,我们在每个沙漏模块之后引入监督。因此,我们有四个损失函数。每个沙漏模块都会为下一个沙漏提供功能,并回归体积表示。每个沙漏后的性能都会提高。我们发现,添加四个以上的沙漏网络没有任何好处,因为随着添加的内容的增加,性能会发生波动。该网络如图2所示。
4.2 Ours - Image Only
我们的标准网络(Ours-Multistack)经过训练,可以接收来自关键点的指导,同时还可以使用图像中的有用信息。通过该网络,我们尝试仅使用图像来衡量训练的影响,同时保持架构相同。我们称此网络为Ours - Image Only。我们期望该网络的性能显著低于提供人体姿势的指导时的性能。
4.3 Ours - Landmarks Only
许多方法,例如[2,22],在训练和推断过程中仅使用关键点作为输入。因此,在仅提供关键点而没有图像的情况下测量我们的方法的性能是一项有趣的研究。因此,我们训练了Ours - Landmarks Only。但是,仅使用关键点来拟合形状模型会导致产生通用的外观样式。只要提供高质量的训练数据,我们的方法就可以回归这些细微的细节,并在提供图像的同时匹配身体形状。
4.4 Ours - Mask Only
我们的方法不像[33]中那样依赖分割掩膜。但是,我们的方法没有理由无法从单个分割掩膜或轮廓中重建3D几何形状。为了说明这一点,我们训练了另一个网络“Ours - Segmentation Mask”,该网络仅接受单个通道,其中包含目标对象的掩膜。由此,网络以相同的方式重建3D几何形状。该网络再次具有与Ours-Multistack相同的配置,除了第一层接收不同数量的输入。我们期望该网络的性能相当好,因为我们提供给网络的分割掩膜是目标体积的投影。
4.5 Ours - 3D Convolution
尽管体积CNN可能在性能上胜过空间网络,但在此任务上,对内存的要求远高于空间CNN的。因此,目前不可能以合适的分辨率使用体积CNN。但是,我们有兴趣测试这两者之间的折中方案,并在平滑滤波器中训练体积CNN。更具体地,其中
f
f
f是特征的数量,我们的滤波器的尺寸为
f
×
3
×
1
×
1
f×3×1×1
f×3×1×1,
f
×
1
×
3
×
1
f×1×3×1
f×1×3×1或
f
×
1
×
1
×
3
f×1×1×3
f×1×1×3。如图3所示,受到[34]的启发,我们将它们合并为一个平滑的体积残余模块。该网络还将具有相应关键点的图像作为输入。为了与其他方法进行公平的比较,我们通过减少参数的数量(也使网络适合内存)使该网络的浮点计算量与Ours-Multistack相匹配。
5 Results
在本节中,我们将概述上述架构的性能。对于每个网络,我们将结果表示为“交并比”(IoU)得分,该得分定义为相交集合体素的数量超过任一体积中设置的集合体素的数量。这些数字结果可以在表1中找到。我们将在后续段落中更详细地讨论这些结果。
表1.我们提出的方法和其他架构实验的数值性能,全部基于使用SMPLify生成的数据。
我们在图4中显示了Ours-Multistack的视觉结果。定量结果表明,我们对基准网络VRN-Guided所做的更改非常有效,就IoU而言,性能提高了4%以上。从性能改善来看,超过2%的原因是使用了[32]中提出的残差模块,这可以从Ours-Old-Residual的结果中看出。由于我们的数据是由SMPlify [2]生成的,因此我们无法使用此方法进行定量比较。
不出所料的是,删除关键点或图像会降低性能。通过为网络提供图像和关键点,可以达到最佳性能,如在 Ours - Multistack,Ours - Landmarks Only 和 Ours - Image Only看到的那样。同样,关键点本身比单独的图像提供更好的性能。至少在这种情况下是正确的,因为groundtruth模型没有细节。我们还展示了仅将分割掩膜提供给网络的性能(在Ours-Multiststack中没有提供)。这些结果被标记为Ours - Mask Only。我们期望该网络的性能优于关键点或仅图像的网络,因为我们提供的掩膜是目标体积的直接2D投影。
图4.在Human3.6m [30]的测试中,来自我们的主网络Ours-Multistack的视觉结果。这些结果证明了VRN处理大型复杂姿势的能力。我们还显示了带有投影到其上的纹理的重建。
性能说明。 在NVIDIA 1080 Ti GPU上,单次通过我们的网络需要大约200毫秒。体积表示由此生成。根据所使用的实现方法不同,表面提取花费的时间从200-600ms不等。使用较小的体积可以显着提高性能,但这会导致较低的精细度。训练通常需要两天左右的时间。
6 High Quality Training Data
在之前的部分中,我们展示了我们的方法可以重建非常大的姿态的人体。然而,由于受限于我们训练的数据集,我们只能在没有任何细节的情况下回归粗略的几何图形。在[1]中对人脸的研究也没有完成精细的三维重建,这也是由于缺乏详细的数据集。 因此,在本节中,我们证明了当提供高质量数据集时,VRN能够回归细节。在这个实验中,我们使用了性能最好的网络Ours – Multistack。
我们的数据集来自40名参与者的高度详细的3D扫描组成,其中4人被保留用于定量测试,但所有这些都在姿势方面受到很大限制。每个参与者只能进行一次扫描。这些模型没有与模型对齐的相应图像。因此,我们在各种不同的光照条件、比例和视图下渲染和体素化这些模型,以创建由大约20,000个空间对齐的样本组成的训练集。体素化以128 × 256 × 96的分辨率执行,这有效地封装了在数据集中的姿态。和我们之前的实验一样,Z对齐是通过平均Z分量来实现的。不幸的是,我们无法公开发布该数据集。
图5。使用我们用高质量训练数据训练的方法,从网络知识共享(Creative Commons)进行3D重建的例子。第一行显示输入图像,第二行显示从前面的3D重建,第三行显示从后面观看时的3D重建(即,在这些图像的情况下,不可见的一侧)。最后一行显示了带有投影纹理的正面重建。这些结果表明,VRN能够回归更精细的细节。
6.1 Performance
我们用与上面相同的方式渲染和体素化为测试保留的四个模型,以产生60个测试图像。我们用我们的方法重建这些得到的结果IoU为78%。这明显高于我们之前实验中的重建。这可能是由于训练图像和目标之间空间对齐的更好。此外,我们还展示了取自网络知识共享(这些图像的应用是得到知识共享(Creative Commons)许可的。如有需要,我们将在网站上提供。)的真实图像的定性结果。这些重建可以在图5中找到。我们展示了这些重建的背面,展示了网络重建被遮挡的身体部分的能力。在衣服的褶皱中可以看到更精细的细节。由于我们的方法是在合成数据上训练的,我们认为在真实世界的图像上可能会有一些性能下降。此外,在图5的重建中发现有几个姿势在36个训练样本中是不存在的。这表明VRN对之前没见过的姿势有7一定容错。
7. Conclusions
在这项研究中,我们已经证明,如[1]中所述,使用体积回归网络VRN进行3D重建的任务不限于更简单的面部重建任务。尽管我们正在处理的体积很小,但是就细节而言它并不是一个限制因素。我们对原VRN提出了几项改进,使性能有了相当大的提高。最后,我们通过使用两个不同的数据集表明,VRN既可以回归不寻常的姿态(在Human3.6m训练的网络中)也可以回归高层次的细节(在我们的私有但详细的数据集的情况下)。我们相信,给定一个足够大的数据集,包含许多姿态变化和高水平的细节,该网络将能够进行大姿态的3D人体重建,同时还可以从单个图像中捕获精细细节。
参考文献
- Jackson, A.S., Bulat, A., Argyriou, V., Tzimiropoulos, G.: Large pose 3d face reconstruction from a single image via direct volumetric cnn regression. In: Computer Vision (ICCV), 2017 IEEE International Conference on, IEEE (2017) 1031–1039
- Bogo, F., Kanazawa, A., Lassner, C., Gehler, P., Romero, J., Black, M.J.: Keep it smpl: Automatic estimation of 3d human pose and shape from a single image. In:European Conference on Computer Vision, Springer (2016) 561–578
- Lorensen, W.E., Cline, H.E.: Marching cubes: A high resolution 3d surface construction algorithm. In: ACM siggraph computer graphics. Volume 21., ACM(1987) 163–169
- Li, S., Chan, A.B.: 3d human pose estimation from monocular images with deep convolutional neural network. In: Asian Conference on Computer Vision, Springer(2014) 332–347
- Park, S., Hwang, J., Kwak, N.: 3d human pose estimation using convolutional neural networks with 2d pose information. In: European Conference on Computer Vision, Springer (2016) 156–169
- Tekin, B., Katircioglu, I., Salzmann, M., Lepetit, V., Fua, P.: Structured prediction of 3d human pose with deep neural networks. arXiv preprint arXiv:1605.05180 (2016)
- Tekin, B., Rozantsev, A., Lepetit, V., Fua, P.: Direct prediction of 3d body poses from motion compensated sequences. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. (2016) 991–1000
- Zhou, X., Sun, X., Zhang, W., Liang, S., Wei, Y.: Deep kinematic pose regression.In: European Conference on Computer Vision, Springer (2016) 186–201
- Chen, W., Wang, H., Li, Y., Su, H., Wang, Z., Tu, C., Lischinski, D., Cohen-Or, D.,Chen, B.: Synthesizing training images for boosting human 3d pose estimation. In:3D Vision (3DV), 2016 Fourth International Conference on, IEEE (2016) 479–488
- Ghezelghieh, M.F., Kasturi, R., Sarkar, S.: Learning camera viewpoint using cnn to improve 3d body pose estimation. In: 3D Vision (3DV), 2016 Fourth International Conference on, IEEE (2016) 685–693
- Zhou, X., Zhu, M., Leonardos, S., Derpanis, K.G., Daniilidis, K.: Sparseness meets deepness: 3d human pose estimation from monocular video. In: Proceedings of the IEEE conference on computer vision and pattern recognition. (2016) 4966–4975
- Pavlakos, G., Zhou, X., Derpanis, K.G., Daniilidis, K.: Coarse-to-fine volumetric prediction for single-image 3d human pose. In: Computer Vision and Pattern Recognition (CVPR), 2017 IEEE Conference on, IEEE (2017) 1263–1272
- Mehta, D., Sridhar, S., Sotnychenko, O., Rhodin, H., Shafiei, M., Seidel, H.P., Xu, W., Casas, D., Theobalt, C.: Vnect: Real-time 3d human pose estimation with a single rgb camera. ACM Transactions on Graphics (TOG) 36(4) (2017) 44
- Bulat, A., Tzimiropoulos, G.: Human pose estimation via convolutional part heatmap regression. In: ECCV. (2016)
- Balan, A.O., Sigal, L., Black, M.J., Davis, J.E., Haussecker, H.W.: Detailed human shape and pose from images. In: 2007 IEEE Conference on Computer Vision and Pattern Recognition, IEEE (2007) 1–8
- Grest, D., Herzog, D., Koch, R.: Human model fitting from monocular posture images
- Guan, P., Weiss, A., Balan, A.O., Black, M.J.: Estimating human shape and pose from a single image. In: Computer Vision, 2009 IEEE 12th International Conference on, IEEE (2009) 1381–1388
- Anguelov, D., Srinivasan, P., Koller, D., Thrun, S., Rodgers, J., Davis, J.: Scape: shape completion and animation of people. In: ACM transactions on graphics (TOG). Volume 24., ACM (2005) 408–416
- Chen, Y., Kim, T.K., Cipolla, R.: Inferring 3d shapes and deformations from single views. In: European Conference on Computer Vision, Springer (2010) 300–31314
- Jiang, H.: 3d human pose reconstruction using millions of exemplars. In: Pattern Recognition (ICPR), 2010 20th International Conference on, IEEE (2010) 1674–1677
- Zanfir, A., Marinoiu, E., Sminchisescu, C.: Monocular 3d pose and shape estimation of multiple people in natural scenes - the importance of multiple scene constraints. In: The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). (June 2018)
- Ramakrishna, V., Kanade, T., Sheikh, Y.: Reconstructing 3d human pose from 2d image landmarks. In: European conference on computer vision, Springer (2012)573–586
- Loper, M., Mahmood, N., Romero, J., Pons-Moll, G., Black, M.J.: Smpl: A skinned multi-person linear model. ACM Transactions on Graphics (TOG) 34(6) (2015) 248
- Varol, G., Romero, J., Martin, X., Mahmood, N., Black, M.J., Laptev, I., Schmid, C.: Learning from synthetic humans. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2017), IEEE (2017) 4627–4635
- Pons-Moll, G., Romero, J., Mahmood, N., Black, M.J.: Dyna: A model of dynamic human shape in motion. ACM Transactions on Graphics, (Proc. SIGGRAPH)34(4) (August 2015) 120:1–120:14
- Joo, H., Simon, T., Sheikh, Y.: Total capture: A 3d deformation model for tracking faces, hands, and bodies. In: The IEEE Conference on Computer Vision and Pattern Recognition (CVPR). (June 2018)
- Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556 (2014)
- He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition.In: Proceedings of the IEEE conference on computer vision and pattern recognition.(2016) 770–778
- Catalin Ionescu, Fuxin Li, C.S.: Latent structured models for human pose estimation. In: International Conference on Computer Vision. (2011)
- Ionescu, C., Papava, D., Olaru, V., Sminchisescu, C.: Human3.6m: Large scale datasets and predictive methods for 3d human sensing in natural environments.IEEE Transactions on Pattern Analysis and Machine Intelligence 36(7) (jul 2014)1325–1339
- Hinton, G., Srivastava, N., Swersky, K.: Neural networks for machine learning lecture 6a overview of mini-batch gradient descent
- Bulat, A., Tzimiropoulos, G.: Binarized convolutional landmark localizers for human pose estimation and face alignment with limited resources. In: International Conference on Computer Vision. (2017)
- Sigal, L., Balan, A., Black, M.J.: Combined discriminative and generative articulated pose and non-rigid shape estimation. In: Advances in neural information processing systems. (2008) 1337–1344
- Qiu, Z., Yao, T., Mei, T.: Learning spatio-temporal representation with pseudo-3d residual networks. In: 2017 IEEE International Conference on Computer Vision(ICCV), IEEE (2017) 5534–5542