MyDLNote-Network:CVPR2020 G3AN 外观和运动解耦的视频生成网络

G3AN: Disentangling Appearance and Motion for Video Generation

[CVPR_2020] [GitHub]

Abstract

Creating realistic human videos entails the challenge of being able to simultaneously generate both appearance, as well as motion. To tackle this challenge, we introduce G 3AN, a novel spatio-temporal generative model, which seeks to capture the distribution of high dimensional video data and to model appearance and motion in disentangled manner. The latter is achieved by decomposing appearance and motion in a three-stream Generator, where the main stream aims to model spatio-temporal consistency, whereas the two auxiliary streams augment the main stream with multi-scale appearance and motion features, respectively. An extensive quantitative and qualitative analysis shows that our model systematically and significantly outperforms state-of-the-art methods on the facial expression datasets MUG and UvA-NEMO, as well as the Weizmann and UCF101 datasets on human action. Additional analysis on the learned latent representations confirms the successful decomposition of appearance and motion. Source code and pre-trained models are publicly available

第一句,本文研究方向及问题:创建真实的人类视频需要能够同时产生外观和动作这两个挑战。

第二句,一句介绍本文核心方法:介绍了一种新的时空生成模型 G3AN,该模型旨在捕捉高维视频数据的分布,并以解耦的方式建模外观和运动

第三句,方法的部分细节:解耦是通过在一个三串流生成器(三个数据流)中分解外观和运动来实现的,其中主流旨在建模时空一致性,而两个辅助流分别使用多尺度外观和运动特征来增强主流

第四句,实验结果:本文的模型系统,优于最先进的面部表情数据集 MUG 和 UvA-NEMO,以及人类行为数据集 Weizmann 和 UCF101。

第五句,本文还做了深刻分析:对学习到的潜在表示的额外分析确认了外观和运动的成功分解。

 

 

Approach

总体介绍

In this work, we propose G3AN, a novel GAN architecture, aiming at generating videos in a disentangled manner from two noise vectors, za ∈ ZA and zm ∈ ZM, which represent appearance and motion, respectively. G3AN consists of a three-stream Generator G, as well as a two-stream Discriminator D, as illustrated in Figure 1. While G aims at generating videos with the ability to modulate appearance and motion disjointly, D accounts for distinguishing generated samples from real data, in both, videos and frames, respectively.

G3AN 的输入是两个噪声向量,za 和 zm,分别代表外观和运动,以一种解耦的方式生成视频。G3AN 由三数据流生成器 G 和两数据流判别器 D 组成,如图 1 所示。G 的目标是生成具有分离调制外观和运动的能力的视频,D 则分别用于区分生成的样本和真实数据,分别在视频和帧中。

Generator

  • Hierarchical Generator with G3 -modules.

网络整体是在 G3 模块的层次结构中设计 G。具体来说,有 N 个层次,记为 G3 N =0…N -1。第一个 G3 模块,G3 0 接受两个噪声矢量 za 和 zm 作为输入。剩余模块 G3 n=1… 从 G3 n1 模块中继承FSn 1, FVn 1 和 FTn-1 三个特性映射作为它们的输入,见图 1 和图 2。

每个 G3 n 模块由三个并行流组成:一个空间流 GSn,一个时间流 GTn,以及一个视频流 GVn (图1和2)。它们被设计成产生三种不同类型的特征。

空间流 GSn蓝线表示,n = 0 时接受 za 作为输入,n >1 时 FSn-1 作为输入;用 transposed 2D convolutional layer 对输入特征进行上采样,生成二维外观特征 FSn 。这些特征在空间维度上进化,并在所有情况下共享。

时间流 GTn橙线表示,n = 0 时接受 zm 作为输入,n >1 时 FTn-1 作为输入;用 transposed 2D convolutional layer 对输入特征进行上采样,生成二维外观特征 FTn 。这些特征在时间维度上进化,并包含每个时间步长的全局信息。

视频流 GVn 黑线表示,n = 0 时 za 与 zm 的级联作为输入,n>1 时 FVn 1 作为输入; 它对时空一致性进行建模,通过因式变换的时空卷积(a factorized transposed spatio-temporal convolution)对输入特征进行上采样,得到三维关节嵌入 FV n。然后将FSn 和 FTn 弹射到时空融合块,在时空融合块中与 FVn 融合,形成 FVn。

最后,FSn、FTn 和 FVn 作为下一层 G3 n+1 的输入。

 

  • Factorized transposed spatio-temporal convolution

Wang 等人在 [40] 中提出了分解转置时空卷积。它将转置的 3D 卷积分解成两个独立的连续运算,M 转置的 1D 时间卷积接着是一个 2D 的独立空间卷积,称为 transposed (1+2) D 卷积。这样的分解在这两个操作之间带来了额外的非线性激活,并促进了优化。至关重要的是,分解转置的 3D 卷积可以显著提高视频质量。

[40] ImaGINator: Conditional Spatio-Temporal GAN for Video Generation. In WACV, 2020. 【paper 传输门

  • Spatio-temporal fusion

时空融合是学习好解耦特征的关键要素,其输入是每个 G3 n 模块卷积层的输出特征映射 FSn、FTn 和 FV n。融合包括三个步骤 (见图3)。首先,分别对 FTn 和 FSn 进行空间复制和时间复制,得到两个新的特征图 F R Tn 和 F R Sn。这两个新特征图的时空大小与 FV n 相同。然后,通过位置相加将 F R Tn 和 FV n 组合在一起,创建一个新的时空嵌入 FV n。最后,将 F R Sn 与 FVn 按通道级联,得到最终融合的特征映射 FVn。特性映射 FSn、FTn 和 FVn 代表 G3 n+1 模块的输入。

Factorized spatio-temporal Self-Attention (F-SA).

尽管自注意 (Self-Attention, SA) 在 SAGAN[43] 中已成功应用于图像生成,但在时空视频生成的背景下尚未进行探索。在这里,整合了一个时空 SA 模块,使 G 能够利用来自所有时空特征位置的线索和广泛分离区域之间的模型关系。然而,计算每个位置之间的相关性与其他 3D 图时空特性的计算非常耗时耗内存,尤其是如果它是应用于高等特征图 G。因此,提出一个新的映像时空 self-attention,即F-SA,如图4所示。F-SA 由时间 SA (T-SA) 和空间 SA (S-SA) 组成。这种因式分解降低了计算复杂度,允许 F-SA 在较大的特征映射上应用。在 G3AN 中,对 G3 的输出应用 F-SA,实现最佳视频质量。

Discriminator

为了同时提高视频和帧质量,与 MoCoGAN 相似,使用了一个包含视频流 DV 和图像流 DI 的双流判别器架构。在训练期间,DV 接受完整的视频作为输入,而 DI 从视频中随机采样帧

 

Training

基于双数据流判别器架构,G3AN 同时优化了 DV 和 DI。这两种损耗都使用了 DCGAN[28] 中提出的 GAN 损耗函数。G3AN 的目标函数可以表示为:

其中LI 为 DI 相关的损失函数,LV 为 DV 相关的损失函数。

G 尝试从 za 和 zm 中生成视频,DI 和 DV 的目的是区分生成的样本和真实样本。(·) 表征从真实和生成的视频中采样的 T 帧。

 

一些实验结果

 

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值