(无监督学习&&视频预测)所读论文[2]:Generating Videos with Scene Dynamics

2017-8-23

Generating Videos with Scene Dynamics

1.基本信息

  1. 发表在NIPS2016;

  2. 网址:http://carlvondrick.com/tinyvideo/

2.简介

这篇论文介绍的是利用大量的无标签视频数据训练生成对抗网络GAN从而得到可以生成视频序列的模型。实验表明模型可以更好的以全帧率的速度产生小视频,可以合理的预测静态图像接下来要发生什么,此外的实验和可视化表明模型可以用弱监督学习内部有用的特征来识别动作,表明动态场景对于表征学习有发展前景。
实验表明,该模型可以比单纯基线更好地以全帧速率产生一秒钟的小视频,并且我们可以预测静态图像的合理期望。 此外,实验和可视化表明,该模型在内部学习有用的功能,以最小的监督来识别动作,表明场景动力学是表征学习的有希望的信号。

3.网络模型介绍

3.1生成对抗网络基础

GAN是本文的基础,生成对抗网络的基本思想就是训练两个网络:一个生成器网络,一个判别器网络。生成器网络G试图生成一个视频,判别器网络来判断这个视频是真实的视频还是欺骗的生成视频。
下图为来自知乎(https://zhuanlan.zhihu.com/p/26499443)的生成图片的GAN:

3.2生成器网络

如图
这里写图片描述

生成器网络的输入是低维的隐编码,可以从一个分布函数采样得到,我们希望给定编码z,生成器网络要生成一个视频。文章探索了两种不同的网络结构。
One Stream Architecture
结合时空三维卷积(spatio-temporal convolutions)和反卷积(fractionally strided convolutions)来生成视频,三维卷积提供空间和时间不变性,反卷积可以在深度网络中更有效地实现上采样。本文使用的网络结构受到《Unsupervised representation learning with deep convolutional generative adversarial networks》的启发,在该论文的基础上添加了时间的维度,本文网络结构有五层,除了第一层使用的2×4×4的卷积核(time×width×height),其他层使用的是4×4×4的卷积核,步长为2。
Two Stream Architecture
one stream architecture的结构不能描述通常世界是静止的只有目标运动的,本文尝试用模型显示的表示这种现象,强制背景是静态的目标时动态的。
这里写图片描述

实验中生成器最终产生的是64×64分辨率的32帧视频。

3.3判别器网络

判别器应该解决的两个问题是:首先必须能够区分真是的场景和合成的场景,其次必须能够识别出帧之间的实际运动。本文使用的是一个五层的时空卷积网络,卷积核是4×4×4,网络的结构是生成器中前景生成网络的反向过程,将其中的反卷积过程(上采样)变成了卷积过程(下采样),将最后一层变成了二分类输出。

(要想完整的理解整个流程,需要再仔细看一下GAN相关的)

4.实验

(实验部分没仔细看)

思考:这篇论文的想法应该是把GAN用在视频场景生成,利用了时空三维卷积和反卷积等。应该算是在GAN基础上的扩展吧

5.下一篇

下一篇要读的是《Visual Dynamics: Probabilistic Future Frame Synthesis via Cross Convolutional Networks》。

如果您觉得本文有哪些错误,欢迎及时告知纠正,也渴望相关方向的朋友一起交流~

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
音乐转换器是一种能够生成具有长期结构的音乐的技术。传统上,音乐生成模型主要依赖于自回归模型,即根据前面的音符预测下一个音符。这种方法很难捕捉到音乐的长期结构,因为它只关注于当前音符与前面音符的关系。 然而,音乐转换器采用了一种全新的方法。它将音乐的生成问题转化为基于自注意力机制的序列到序列问题。自注意力机制允许模型在生成每个音符时考虑到整个音乐序列的信息,而不仅仅是前面的音符。 此外,音乐转换器还引入了一种基于位置编码和层归一化的技术,来增强模型对音乐序列的表征能力和泛化能力。位置编码在序列中为每个位置分配一个向量,以提供位置信息。而层归一化则可以确保模型的每一层都保持相似的输出分布,从而提高模型的训练稳定性和生成效果。 通过这些创新技术的运用,音乐转换器能够更好地捕捉到音乐的长期结构。它可以生成具有旋律、和声和节奏等多个音乐要素的音乐片段,并且这些片段之间能够形成完整的结构,如引言、主题、发展和回旋等。 总之,音乐转换器是一种利用自注意力机制、位置编码和层归一化等技术生成具有长期结构的音乐的方法。它的创新之处在于能够全局考虑音乐序列的信息,并能够生成具有完整结构的音乐片段。这使得音乐转换器成为一个有潜力的工具,在音乐创作和生成领域有着广阔的应用前景。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值