用GAN来生成视频,结果很诡异!


整理自“机器之心”


近日,来自 DeepMind 的研究者则尝试在视频建模领域实现逼真的效果,他们认为除了图像生成,GAN 在视频生成上也是没啥问题的。类似 BigGAN 的思路,研究者在复杂的 Kinetics-600 数据集上训练一种大型生成对抗网络(GAN),并期待该网络生成的视频样本复杂度大大高于之前的研究。

  • 论文:Efficient Video Generation on Complex Datasets

  • 论文地址:https://arxiv.org/pdf/1907.06571.pdf

DeepMind 提出的模型叫作 Dual Video Discriminator GAN (DVD-GAN)可以利用计算高效的判别器分解,扩展到时间更长、分辨率更高的视频。该研究是迈向逼真视频生成的一次探索,连 Ian Goodfellow 也转推了这篇论文。

那么靠 GAN 生成的视频是怎样的,到底是高清画面的堆砌还是说也会包含一些连贯语义。在下面三个动图中,研究者展示了 DVD-GAN 生成不同分辨率视频的效果,它们都是在 Kinetics-600 训练后得到的结果。

640?wx_fmt=gif

DVD-GAN 在 12 帧 256 × 256 Kinetics-600 样本上训练得到的视频帧。

640?wx_fmt=gif

DVD-GAN 在 48 帧 128 × 128 Kinetics-600 样本上训练得到的视频帧。

看得出有些视频里发生了些什么,但想要真正理解却又有些困难。

640?wx_fmt=gif

DVD-GAN 在 12 帧 128 × 128 Kinetics-600 样本上训练得到的视频帧。

从整体上来说,DVD-GAN 能够生成一段连续的视频。但是还有很多问题:

  • 视频中的物体和人不符合几何关系(近大远小等),忽大忽小、物体形变的情况非常多。

  • 有些视频不符合常理,如一个人突然变成别的东西、有些物体突然消失,或者有些物体直接穿过其他物体(很像《哈利波特》里的魔法)。

  • 很少有镜头拉近画面或者远离画面的视频,大多数情况下镜头固定,偶尔在画面左右摇晃。

  • 视频生成效果较好的集中于草地、广场、比赛场地等运动行为非常明确的场景,而在室内或人物运动幅度较小的时候生成的效果较差(是数据集的问题?)。

不过,这已经是 GAN 目前能够做到的最好水平了。

DVD-GAN 能够生成高分辨率和具备时间一致性的视频。它将大型图像生成模型 BigGAN 扩展到视频领域,同时使用多项技术加速训练。与之前的研究不同,该模型的生成器不包含前景、背景或光流的显式先验信息,而是依赖于大容量的神经网络,以数据驱动的方式学习这些信息。DVD-GAN 包含自注意力和 RNN,但是它在时间或空间中并不具备自回归属性。RNN 按顺序为每个视频帧生成特征,然后 ResNet 并行地输出所有帧,联合生成每一帧中的所有像素。也就是说,每一帧中的像素并不直接依赖于视频中的其他像素,这与自回归模型并不相同。

DVD-GAN 模型架构如下图所示:

640?wx_fmt=png

图 3:DVD-GAN 模型架构图示。左图为生成器,右图为判别器(D_S/D_T)。

DVD-GAN 使用两个判别器:空间判别器(Spatial Discriminator:D_S)和时间判别器(Temporal Discriminator:D_T)。

  • D_S 对视频随机采样 k 个全分辨率帧,并对单个帧的内容和结构进行评价。研究人员使用了 k=8 的参数。和 TGANv2 一样,D_S 的最终分数是每个帧的分数之和。

  • D_T 则向模型提供生成动作的学习信号(动作是 D_S 无法评价的)。研究人员对整个视频使用了一种空间降采样函数 φ(·),并将函数的输出作为 D_T 的输入。这个降采样函数是一个 2 × 2 平均池化函数。

推荐阅读

PyPI 发现 3 个针对 Linux 服务器的恶意库

你还在学习长篇的Linux命令大全吗?最佳Linux学习路径在这里!

你的电脑是如何识别色图的?

那个清华哈佛双料女学霸, 辞职了

Python 3.8 即将到来,这是你需要关注的几大新特性


640?wx_fmt=png

喜欢就点击“在看”吧!

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值