对《Everybody Dance Now》一文的理解

最新推荐文章于 2024-09-15 08:03:06 发布

keneyr

最新推荐文章于 2024-09-15 08:03:06 发布

阅读量4.9k

点赞数 2

分类专栏： Research & 科研之心文章标签： GAN DL

本文链接：https://blog.csdn.net/keneyr/article/details/89882881

版权

Research & 科研之心专栏收录该内容

17 篇文章

订阅专栏

该文发表于哪里不知道，也懒得搜了。四位作者都是UC Berkeley的。本博主要是翻译。

Everybody Dance Now

本文介绍了一种简单的“按我做”动作转移的方法：给定一个人跳舞的源视频，我们可以在目标主体进行标准动作的几分钟之后将该表演转移到一个普通（业余）目标。将此问题作为具有时空平滑的每帧图像到图像的转换。使用姿势检测作为源和目标之间的中间表示，我们学习从姿势图像到目标主体外观的映射。我们调整此设置我们的视频演示可以在视频地址上找到。

其他关键词和短语：Motion transfer，Video generation，Generative adversarial networks。

1、INTRODUCTION

我们提出了一种在不同视频中的人类主体之间传递运动的方法。给定两个视频 --- 其中之一，我们希望合成目标人物，另外一个，我们希望对我们的目标人物施加动作的源主体 --- 我们通过端到端的基于像素的pipeline在这些主体之间传递运动。这与过去二十年中使用最近邻搜索[4,9]或3D运动重定位[7,13,26,30]的方法形成对比。通过我们的框架，我们创建了各种视频，让未经训练的业余爱好者像芭蕾舞演员一样旋转和旋转，表演武术踢或像流行歌星一样充满活力地跳舞。

为了以逐帧的方式在两个视频主体之间传输运动，我们必须学习两个人的图像之间的映射。因此，我们的目标是在源集和目标集之间发现图像到图像的转换[14]。但是，我们没有执行相同动作的两个对象的相应图像来直接监督学习该转移。即使两个受试者都执行相同的程序，由于身体形状和每个受试者独有的风格差异，仍然不太可能获得精确地帧到帧的身体-姿势一致性。

我们观察到基于关键点的姿势，其内在地编码身体位置而不是外观，可以充当任何两个主体之间的中间表示。与我们的目标兼容，随着时间的推移保留运动特征，同时尽可能多地抽象出主题身份。因此，我们将中间表示设计为pose stick figures，如图2所示。从目标视频中，我们获得每帧的姿势检测[5,27,35]，产生一组（姿势棒图，目标人物图像）对应对。通过这种对齐的数据，我们能够以有监督的方式学习姿势棒图和目标人物图像之间的图像到图像转换模型。因此，我们的模型经过培训，可以生成特定目标主题的个性化视频。然后，为了将动作从源传递到目标，我们将姿势棒图输入到训练模型中，以获得与源相同姿势的目标对象的图像。(好聪明的做法！！！！！)我们添加了两个组件来提高结果的质量：为了鼓励生成的视频的时间平滑性，我们在每个帧上调整前一时间步的预测。为了在我们的结果中增加面部真实感，我们添加了一个专门的GAN训练，以产生目标人的面部。

我们的方法生成视频，其中运动在各种视频主体之间传输，而无需昂贵的3D或动作捕捉数据。我们的主要贡献是基于学习的视频之间的人体运动传输管道，以及我们的结果质量，这些结果展示了在逼真和详细视频中的复杂运动传递。与基线框架相比，我们还对模型的组成部分进行了消融研究。

2、RELATED WORK

在过去的二十年中，已经进行了广泛的研究，致力于运动转移或重定向。早期的方法专注于通过操纵现有的视频素材来创建新内容[4,9]。例如，Video Rewrite通过查找嘴位置与所需语音匹配的帧来创建主题的视频，说出他们最初没有说出的短语[4]。另一种方法使用光流作为描述符匹配不同的主体执行类似的动作，允许“像我一样做”和“按我说的做”重新定位[9]。同样，我们的方法是专为视频主题设计的，可以在网上找到或亲自捕捉，尽管我们学会合成新的动作而不是操纵现有的帧。

使用3D运动转移的其他方法主要用于图形和动画目的。由于动画角色[11]首次提出了重定向问题，因此解决方案包括在问题[19]中引入逆运动学求解器，并在显著不同的骨架之间重新定位[13]。最近，Villegas等人[30]应用深度学习技术在没有监督数据的情况下重新定位运动。与这些方法不同，我们的工作探索了缺乏3D信息的2D视频主题之间的运动传递。为了缓解这个问题，Cheung等人 [7]提出了一个精心设计的多视图系统，用于校准个性化运动模型，获得3D联合估计，并渲染执行新运动的人类主体的图像。相比之下，我们的方法避免了源 - 目标数据校准和提升到3D空间。

最近对视频运动的研究已经能够学会区分运动与外观，从而合成视频中的新动作[1,29]。 MoCoGAN [29]采用无监督的对抗训练来学习这种分离，并生成执行新动作或面部表情的受试者的视频。通过动态转移GAN [1]中的后续工作继续该主题，其将面部表情从视频中的源主体转移到静态图像中给出的目标人。同样地，我们将运动表现（姿势棒图）应用于不同的目标主体以产生新的运动，而相反，我们的工作专注于合成详细的舞蹈动作。

现代方法已经成功地以新颖的姿势生成人类受试者的详细图像[10,16,22,23,31]。此外，最近的方法可以合成用于时间相干视频[2]和未来预测[31]的这种图像。诸如Recycle-GAN [3]和vid2vid [32]之类的框架学习不同视频之间的映射并分别展示面部之间以及从姿势到身体的运动传递。我们的方法同时考虑了视频生成，同时保留了面部特征等重要细节。

由于图像生成的进步和对一般图像映射框架的大量工作，我们能够学习从姿势到目标主题的映射。自从最近出现用于近似生成模型的生成性对抗网络（GAN）[12]以来，GAN已被用于包括图像生成在内的许多目的[8]，特别是因为它们可以生成具有清晰细节的高质量图像[18]。这些进步导致了条件GAN的使用，其中生成的输出以结构化输入为条件[25]。除了特定的应用程序或映射之外，研究还采用对抗性训练来学习任意图像到图像的转移。在过去几年中，有几个框架，通常（但不是全部）使用GANS，开发用于解决这些映射，包括pix2pix [14]，CoGAN [21]，UNIT [20]，DiscoGAN [17]，CycleGAN [37] ]，Cascaded Refinement Networks [6]和pix2pixHD [33]。由于我们的运动转移方法，我们可以为我们的目的选择和采用这样的框架。

3、METHOD OVERVIEW

给定一个源人和另一个目标人的视频，我们的目标是生成一个新的视频，目标人员制定与源相同的动作。为了完成这项任务，我们将管道划分为三个阶段 - 姿势检测，全局姿势归一化以及从标准化姿势棒图到目标主体的映射。在姿势检测阶段，我们使用预先训练的状态姿势检测器来创建给定来自源视频的帧的姿势棒图。全局姿势标准化阶段考虑了源体和目标体形状与框架内位置之间的差异。最后，我们设计了一个系统来学习从标准化的姿势棒图到具有对抗训练的目标人的图像的映射。

我们现在详细说明我们的完整训练系统，如图3的训练设置中所示。给定来自原始目标视频的帧y，我们使用姿势检测器P来获得相应的姿势棒图x = P（y）。在训练期间，我们使用相应的（x，y）对来学习映射G，其映射给定姿势棒x的目标人物的图像。通过使用预先训练的VGGNet [15,28]进行具有鉴别器D和感知重建损失的对抗训练，我们优化生成的输出G（x）以类似于真实目标主体帧y。 D试图区分“真实”图像对（即（姿势棒图x，地面实况图像y））和“假”图像对（即（姿势棒图x，模型输出G（x））。

我们的转移设置显示在图3的传输设置中。与训练类似，姿势检测器P从源帧y'提供信息图x'中提取姿势信息。但是，在他们的视频中，源主体可能看起来更大或更小，并且站在不同的位置比目标视频中的主题。为了使源姿势更好地与目标的拍摄设置对齐，我们应用全局姿势归一化Norm来将源的原始姿势x'变换为与目标视频x中的姿势更一致。 然后我们将标准化的姿势棒图x传递到我们训练的模型G中以获得我们的目标人物的图像G（x），其对应于源y'的原始图像。

--------------------------------------------好聪明啊，，，惊叹于作者的思路。。。。。--------------------------------------

4、POSE ESTIMATION AND NORMALIZATION

4.1 Pose estimation

为了创建编码身体位置的图像，我们使用预训练姿势检测器P [5,27,35]，其精确地估计x，y关节坐标。我们通过绘制连接关节之间的关键点和绘制线来绘制所得姿势棒图的表示，如图2所示。在训练期间，目标人的姿势棒图是发生器G的输入。对于转移，P获得源主题的联合估计，然后如4.2节中那样归一化，以更好地匹配在训练中看到的转移主体的姿势。标准化姿势坐标用于为生成器G创建输入姿势棒图。

4.2 Global pose normalization

在不同的视频中，受试者可能具有不同的肢体比例或者彼此靠近或远离相机。因此，当在两个对象之间传递运动时，可能需要转换源人的姿势关键点，使得它们根据目标人的身体形状和比例出现，如图3的转移部分中。我们通过分析发现这种转变每个主体的姿势的高度和脚踝位置，并使用两个视频中最近和最远的脚踝位置之间的线性映射。收集这些统计数据后，我们根据相应的姿势检测计算每个帧的比例和平移。有关全局姿态归一化的更多详细信息，请参见第9节的附录。（We find this transformation by analyzing the heights and ankle positions for poses of each subject and use a linear mapping between the closest and farthest ankle positions in both videos. After gathering these statistics we calculate the scale and translations for each frame based on its corresponding pose detection.）

5、ADVERSARIAL TRAINING OF IMAGE TO IMAGE TRANSLATION

我们修改了pix2pixHD [33]的对抗训练设置，以（1）产生时间上相干的视频帧，（2）合成逼真的脸部图像。我们现在详细描述原始网络及其对它的修改。

5.1 pix2pixHD framework

我们的方法基于pix2pixHD [33]中提出的目标。在原始条件GAN设置中，生成器网络G参与针对多尺度鉴别器D =（D 1，D 2，D 3）的极小极大游戏。生成器的任务是合成逼真的图像，以便欺骗必须在发生器产生的“假”图像中识别“真实”（实况数据）图像的鉴别器。这两个网络同时训练并相互驱动以改善因为发生器必须学会合成更逼真的图像来欺骗鉴别器，鉴别器反过来学习发生器输出和地面实况数据之间的差异。原始pix2pixHD目标采用的形式

这里，是原pix2pix论文[14]中所说的对抗损失：

是pix2pixHD中展示的辨别器特征匹配损失，是感知重建损失[15]，感知重建损失用来比较网络中不同层的预训练VGGNet[28]特征。

5.2 Temporal smoothing

为了创建视频序列，我们修改单个图像生成设置以强制相邻帧之间的时间一致性，如图4所示。我们在7.1节的消融研究中研究了这种添加的影响。 我们不是生成单独的帧，而是预测两个连续的帧，其中第一个输出G（xt-1）以其对应的姿势图形xt-1和零图像z（一个占位符，因为在时间t-2的时候没有生成帧）。第二输出G（x t）以其对应的姿势图形x t和第一输出G（x t-1）为条件。因此，鉴别器现在的任务是确定“假”序列（xt-1，xt，G（xt-1），G（xt））和“真实”序列（xt-1,xt,yt-1,yt）之间时间一致性等的不同。时间平滑变化现在反映在更新的GAN目标中 -

5.3 Face GAN

我们添加了一个专门的GAN设置，旨在为面部区域添加更多细节和真实感，如图5所示。我们展示了我们的面部GAN可以产生令人信服的面部特征，并在我们的消融研究中对完整图像GAN的结果进行了改进。7.1节。
在用主发生器G生成场景的完整图像之后，我们输入以面G（x）F为中心的图像的较小部分和以相同方式x F划分的输入姿势棒图到另一个发生器G f。输出残差r = G f（x F，G（x）F）。最终输出是添加具有原始面部区域r + G（x）F的残差，并且该变化反映在完整图像的相关区域中。鉴别器D f然后试图从“假”面对（x）辨别“真实”面对（x F，y F）（输入姿势棒图的面部区域，地面真实目标人物图像的面部区域）。 F，r + G（x）F）与原始pix2pix目标类似 -

其中x F是原始姿势棒图x的面部区域，y F是地面实况目标人物图像y的面部区域。与完整图像类似，我们在将最终面部r + G（x）F与地面真实目标人物面部y F进行比较时添加感知重建损失。

5.4 Full Objective

我们采用分阶段进行培训，其中完整图像GAN与专用面部GAN分开优化。首先，我们训练主生成器和鉴别器（G，D），在此期间，完整的目标是 -

在此阶段之后，冻结完整图像生成器和鉴别器权重，并且我们以完全目标优化面部GAN

6、IMPLEMENTATION

6.1 Data Collection

我们以略微不同的方式收集源视频和目标视频。为了在许多姿势中学习目标对象的外观，重要的是目标视频捕获足够的运动范围和具有最小模糊的清晰帧。为了确保镜架的质量，我们以120帧/秒的速度拍摄了我们的目标主体大约20分钟的实时镜头，这可以通过一些现代手机相机实现。由于我们的姿势表示不会对衣服的信息进行编码，因此我们的目标受试者穿着紧身衣服，皱纹最小。

与拍摄目标主体所需的一些准备相比，源视频不需要相同（尽管仍然合理）的质量，因为我们仅需要来自源视频的适当姿势检测。没有这些限制，许多高质量的舞蹈主题视频在网上都很丰富。

我们发现预平滑姿势关键点对于减少输出中的抖动非常有帮助。对于具有高帧率（120 fps）的视频，我们高斯平滑关键点随着时间的推移，我们对帧率较低的视频使用中值平滑。

6.2 Network architecture

我们根据管道的不同阶段调整各种模型的架构。为了提取身体，面部和手部的姿势关键点，我们使用由最先进的姿势检测器OpenPose [5,27,35]提供的架构。
对于我们管道的图像转移阶段，我们调整了Wang等人提出的架构在pix2pixHD模型中[33]。为了创建128 x 128个人脸图像残差，我们不需要整个pix2pixHD生成器的全部功能，因此我们使用pix2pixHD的全局生成器预测人脸残差。同样，我们使用单个70 x 70 Patch-GAN鉴别器[14]作为面部鉴别器。在实践中，我们在训练期间使用LSGAN [24]目标，类似于pix2pixHD，用于完整图像和面部GAN。

7、EXPERIMENTS

我们将探索修改pix2pixHD基线的效果，并根据6.1节收集的数据集评估结果的质量。由于我们没有用于在两个不同视频主题之间重新定位的地面实况数据，我们分析了具有验证数据的目标人物（即，源人是目标人物）的重建。我们进行了消融研究，包括我们的时间平滑设置和面部GAN与pix2pixHD基线的比较。
为了评估我们各个帧的质量，我们测量结构相似性（SSIM）[34]和学习感知图像补丁相似性（LPIPS）[36]。由于我们的数据没有地面实况流，因此我们依靠定性分析来评估输出视频的时间一致性。

另外，我们在每个系统的输出上运行姿势检测器P，并将这些重建的关键点与原始输入视频的姿势检测进行比较。如果正确合成了所有身体部位，那么重建的姿势应该接近输出被调节的输入姿势。因此，我们可以评估这些姿势重建来分析结果的质量。
对于两个姿势p，p'之间的姿势距离度量，每个姿势具有n个关节p 1，...，pn和p'1，...，p'n，我们将相应关节之间的L2距离相加pk =（xk ，yk）和p'k =（x'k，y'k）由关键点的数量标准化

为了避免处理丢失的检测（即，没有查看对象的原始图像，可能难以辨别“遗漏”检测是否是由于噪声或遮挡），我们仅比较检测到所有关节的姿势。

7.1 Ablation Study

我们的消融研究结果列于表1至表4中。我们比较了pix2pixHD基线（pix2pixHD）的结果，我们模型的厌恶只有时间平滑设置（TS），以及我们的完整模型，包括时间平滑设置和面对GAN（TS + Face）。
表1包含身体周围区域的平均图像相似性测量值。一些示例图像在图7中。对于所有模型变化，SSIM和LPIPS得分都相似。定性地，pix2pixHD基线已经合理地合成目标人，如相似性测量所反映的。在我们的消融之间，完整图像的分数更加相似，因为所有消融都没有生成静态背景的困难。表2示出了面部区域的平均分数（对于面部GAN，这是生成面部残差的区域）。同样，分数通常有利于所有消融，尽管具有时间平滑和面部GAN设置的完整模型获得具有面部区域中最大差异的最佳分数。
表3示出了对于每次消融使用等式7中描述的方法的平均姿势距离。我们在特定的关键点集（正面，面部，指针）上运行姿势度量，以确定导致最大错误的区域。添加时间平滑设置似乎不会显着减少重建的姿势距离，但是包括面部GAN总体上增加了实质性的改进，尤其是对于面部和手部关键点。
在表4中，我们计算在各个区域和整个姿势上的遗漏检测的数量（即，在地面实际帧上检测到的关节但不在输出上），因为姿势度量没有准确地描绘错过的检测。随着我们的模型部件的增加，错过的检测数量通常会减少，特别是对于面部关键点。

7.2 Qualitative Assessment

尽管时间平滑设置的消融研究得分通常与pix2pixHD基线相当或有所改善，但在视频结果中出现显着差异，其中时间平滑设置表现出比pix2pixHD基线更多的帧到帧的相干性。定性地，时间平滑设置有助于平滑运动，跨帧的颜色一致性，以及单独的帧合成。
与消融研究一致，我们发现添加专门的面部生成器和鉴别器可以增加相当多的细节，并鼓励合成逼真的身体部位。我们在图8和视频结果中比较有和没有面部GAN的面部合成。

8、DISCUSSION

总的来说，我们的模型能够创建合理且任意长度的目标人物的视频，这些视频是根据身体动作跳舞来跟随另一个主题舞蹈的输入视频。虽然我们的设置在许多情况下可以产生合理的结果，但偶尔我们的结果会遇到几个问题。

从根本上说，我们的输入姿势棒图依赖于噪声姿态估计，这些估计不会逐帧携带时间信息。来自姿势检测的缺失或不正确的关键点位置会将错误注入到我们的输入中，并且这些失败通常会延续到我们的结果中，即使我们尝试通过我们的时间平滑设置来缓解这些限制。即使我们尝试通过我们的设置和预先平滑来注入时间相干性关键点，我们的结果往往仍然受到抖动的影响。当输入运动或运动速度与训练时看到的运动不同时，特别是在传输视频中出现错误。然而，即使当目标对象试图从训练序列中的源对象复制舞蹈时，当来自源的运动被转移到目标上时，我们的结果仍然经历一些抖动和抖动。由于转移的标准化姿势通常与训练中看到的相似，我们将这一观察归因于我们的目标和转移对象如何在其独特的身体结构下移动之间的潜在差异。通过这种方式，我们相信运动与姿势检测中仍然存在的身份相关联。

尽管我们的全局姿势归一化方法合理地调整了任何源的运动，使其与训练中看到的目标人的比例和位置相匹配，但我们的简单缩放和平移解决方案并未考虑不同的肢长和摄像机位置或角度。这些差异也会导致在训练和测试时看到的运动之间存在更大的差距。

另外，2D坐标和缺失检测限制了我们能够在对象之间重新定位运动的方式的数量，这些方式通常在具有完美关节位置和时间相干运动的3D中工作。

为了解决这些问题，需要在时间上相干的视频生成和人体运动的表示方面做更多的工作。虽然整体上的姿势棒图产生了令人信服的结果，但我们希望避免它所呈现的限制，而是使用在未来工作中专门针对运动传递优化的时间相干输入和表示。尽管存在这些挑战，但我们的方法能够在给出各种输入的情况下制作引人注目的视频。
致谢：这项工作部分得到了NSF资助IIS-1633310以及Adobe，eBay和Google的研究的支持。

9、APPENDIX

9.1 Global Pose Normalization Details

为了找到源姿势和目标姿势之间的比例和平移的变换，我们发现每个主体在地面上的图像坐标中的最小和最大脚踝位置（即不考虑在空中抬起的脚）。这些坐标分别代表到摄像机的最远和最近距离。最大脚踝位置是最接近图像底部的y脚坐标。通过聚集y脚坐标来找到最小脚位置，所述y脚坐标小于（或在空间上方）中间脚踝位置并且与最大脚踝位置到中间脚踝位置的距离大约相同的距离。聚类如此集所述

其中med是中位脚位，max是最大脚踝位置，ε是标量。在实践中，我们使用ε= 0。 7（尽管此标量取决于摄像机高度）并取此设置的最大值以获得最小脚位置。
一旦找到每个受试者的最小和最大踝位置，我们在每个视频的最小和最大踝位置之间进行线性映射（即，最小的源映射到目标的最小值，并且对于最大的踝位置是相同的）。我们根据它们的方向的尺度和平移来描述我们的转换，这是针对每个框架计算的。
根据左和右脚踝y坐标的平均值以及源帧中最大和最小脚踝位置之间的距离来计算平移。然后，新的变换食物位置是目标视频中具有相同相对/内插距离的最大和最小踝位置之间的坐标。给定平均踝位置作为源帧中的源，根据以下等式计算该帧的平移b -

其中t min和t max是目标视频中的最小和最大踝位置，s min和s max是源视频中的最小和最大踝位置。
为了计算比例，我们将最小脚踝位置和最大脚踝位置周围的高度聚类，并找到每个视频的每个聚类的最大高度。将这些最大高度调整为接近目标人的最大脚踝位置附近的簇的最大值，t f ar表示目标人的最小脚踝位置附近的簇的最大值，并且分别为s close和s f ar。我们通过获取目标的近高度与源的近高度之间的比率来获得近似比率，并且对于远比率也是如此。给定平均踝位置作为源，该帧的比例在这两个比率之间进行插值，其方式与平移内插相同，如下面的等式所述 -

REFERENCES
[1] Wissam J Baddar, Geonmo Gu, Sangmin Lee, and Yong Man Ro. 2017. Dynamics Transfer GAN: Generating Video by Transferring Arbitrary Temporal Dynamics from a Source Video to a Single Target Image. arXiv preprint arXiv:1712.03534
(2017).
[2] Guha Balakrishnan, Amy Zhao, Adrian V Dalca, Fredo Durand, and John Gut- tag. 2018. Synthesizing Images of Humans in Unseen Poses. arXiv preprint Fig. 8. Face image comparison from different models on the validation set. T.S. denotes a model with our temporal smoothing setup, and T.S. + Face is our full model with both the temporal smoothing setup and Face GAN. Details improve and distortions decrease upon the additions of the temporal smoothing setup and the face GAN. arXiv:1804.07739 (2018).
[3] AayushBansal,ShugaoMa,DevaRamanan,andYaserSheikh.2018. Recycle-GAN: Unsupervised Video Retargeting. In ECCV.
[4] Christoph Bregler, Michele Covell, and Malcolm Slaney. 1997. Video rewrite: Driving visual speech with audio. In Proceedings of the 24th annual conference on Computer graphics and interactive techniques. ACM Press/Addison-Wesley Publishing Co., 353–360.
[5] Zhe Cao, Tomas Simon, Shih-En Wei, and Yaser Sheikh. 2017. Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields. In CVPR.
[6] Qifeng Chen and Vladlen Koltun. 2017. Photographic image synthesis with cascaded refinement networks. In IEEE International Conference on Computer Vision (ICCV), Vol. 1. 3.
[7] German KM Cheung, Simon Baker, Jessica Hodgins, and Takeo Kanade. 2004. Markerless human motion transfer. In 3D Data Processing, Visualization and Trans-mission, 2004. 3DPVT 2004. Proceedings. 2nd International Symposium on. IEEE, 373–378.
[8] Emily L Denton, Soumith Chintala, Rob Fergus, et al . 2015. Deep Generative Image Models using aï£ĳ Laplacian Pyramid of Adversarial Networks. In Advances in neural information processing systems. 1486–1494.
[9] Alexei A. Efros, Alexander C. Berg, Greg Mori, and Jitendra Malik. 2003. Recog- nizing Action at a Distance. In IEEE International Conference on Computer Vision. Nice, France, 726–733.
[10] Patrick Esser, Ekaterina Sutter, and Björn Ommer. 2018. A Variational U-Net for Conditional Appearance and Shape Generation. (2018).
[11] Michael Gleicher. 1998. Retargetting motion to new characters. In Proceedings of the 25th annual conference on Computer graphics and interactive techniques. ACM, 33–42.
[12] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2014. Generative adversarial nets. In Advances in neural information processing systems. 2672–2680.
[13] Chris Hecker, Bernd Raabe, Ryan W Enslow, John DeWeese, Jordan Maynard, and Kees van Prooijen. 2008. Real-time motion retargeting to highly varied user- created morphologies. In ACM Transactions on Graphics (TOG), Vol. 27. ACM, 27.
[14] PhillipIsola,Jun-YanZhu,TinghuiZhou,andAlexeiAEfros.2016. Image-to-image translation with conditional adversarial networks. arXiv preprint arXiv:1611.07004 (2016).
[15] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. 2016. Perceptual losses for real- time style transfer and super-resolution. In European Conference on Computer Vision.
[16] Donggyu Joo, Doyeon Kim, and Junmo Kim. 2018. Generating a Fusion Image: One’s Identity and Another’s Shape. arXiv preprint arXiv:1804.07455 (2018). 8
[17] Taeksoo Kim, Moonsu Cha, Hyunsoo Kim, Jung Kwon Lee, and Jiwon Kim. 2017. Learning to discover cross-domain relations with generative adversarial networks. arXiv preprint arXiv:1703.05192 (2017).
[18] ChristianLedig,LucasTheis,FerencHuszár,JoseCaballero,AndrewCunningham, Alejandro Acosta, Andrew Aitken, Alykhan Tejani, Johannes Totz, Zehan Wang, et al . 2016. Photo-realistic single image super-resolution using a generative adversarial network. arXiv preprint arXiv:1609.04802 (2016).
[19] Jehee Lee and Sung Yong Shin. 1999. A hierarchical approach to interactive motion editing for human-like figures. In Proceedings of the 26th annual conference on Computer graphics and interactive techniques. ACM Press/Addison-Wesley Publishing Co., 39–48.
[20] Ming-Yu Liu, Thomas Breuel, and Jan Kautz. 2017. Unsupervised image-to-image translation networks. In Advances in Neural Information Processing Systems. 700– 708.
[21] Ming-Yu Liu and Oncel Tuzel. 2016. Coupled generative adversarial networks. In Advances in neural information processing systems. 469–477.
[22] Liqian Ma, Xu Jia, Qianru Sun, Bernt Schiele, Tinne Tuytelaars, and Luc Van Gool. 2017. Pose Guided Person Image Generation. arXiv preprint arXiv:1705.09368 (2017).
[23] Liqian Ma, Qianru Sun, Stamatios Georgoulis, Luc Van Gool, Bernt Schiele, and Mario Fritz. 2018. Disentangled person image generation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 99–108.
[24] Xudong Mao, Qing Li, Haoran Xie, Raymond YK Lau, Zhen Wang, and Stephen Paul Smolley. 2017. Least squares generative adversarial networks. In 2017 IEEE International Conference on Computer Vision (ICCV). IEEE, 2813–2821.
[25] Mehdi Mirza and Simon Osindero. 2014. Conditional generative adversarial nets. arXiv preprint arXiv:1411.1784 (2014).
[26] Ju Shen and Jianjun Yang. 2015. Automatic pose tracking and motion transfer to arbitrary 3d characters. In International Conference on Image and Graphics. Springer, 640–653.
[27] TomasSimon,HanbyulJoo,IainMatthews,andYaserSheikh.2017. HandKeypoint Detection in Single Images using Multiview Bootstrapping. In CVPR.
[28] Karen Simonyan and Andrew Zisserman. 2014. Very deep convolutional networksfor large-scale image recognition. arXiv preprint arXiv:1409.1556 (2014).
[29] Sergey Tulyakov, Ming-Yu Liu, Xiaodong Yang, and Jan Kautz. 2018. Mocogan: Decomposing motion and content for video generation. IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2018).
[30] Ruben Villegas, Jimei Yang, Duygu Ceylan, and Honglak Lee. 2018. Neural Kinematic Networks for Unsupervised Motion Retargetting. arXiv preprint arXiv:1804.05653 (2018).
[31] RubenVillegas,JimeiYang,YuliangZou,SungryullSohn,XunyuLin,andHonglak Lee. 2017. Learning to Generate Long-term Future via Hierarchical Prediction. arXiv preprint arXiv:1704.05831 (2017).
[32] Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Guilin Liu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. 2018. Video-to-Video Synthesis. arXiv (2018).
[33] Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. 2017. High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs. arXiv preprint arXiv:1711.11585 (2017).
[34] Zhou Wang, Alan C Bovik, Hamid R Sheikh, and Eero P Simoncelli. 2004. Image quality assessment: from error visibility to structural similarity. IEEE transactions on image processing 13, 4 (2004), 600–612.
[35] Shih-En Wei, Varun Ramakrishna, Takeo Kanade, and Yaser Sheikh. 2016. Convolutional pose machines. In CVPR.
[36] Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. 2018. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric. In CVPR.
[37] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros. 2017. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. arXiv preprint arXiv:1703.10593 (2017).