Generating Videos With Scene Dynamics

本文介绍了一种基于GAN的网络模型,该模型能够同时完成视频识别与视频生成任务。通过使用未标记的视频训练,模型不仅能生成短小且效果良好的视频,还能基于静态图像预测后续图像序列,并能提取用于图像分类的有效特征。实验采用了Places2预训练模型筛选视频场景,并通过人工评估的方式验证了模型在视频生成方面的有效性。
摘要由CSDN通过智能技术生成




来源:NIPS2016


装载自 https://blog.csdn.net/u010620946/article/details/53681081


这篇论文提出了一个基于GAN的网络模型,同时可以进行视频识别和视频生成的task。


Task

  Video recognition & video Generation.

  即利用一些Unlabeled videos 去训练模型同时解决识别问题和视频生成的任务。

实验表明:

  1. 模型可以生成一些短小的视频并且效果较好

  2. 可以根据static image 预测之后的图片序列

  3. 模型学习到的特征可以很好的用来进行图片分类

model

这里写图片描述

OneStream Architecture:

  在Figure 1 中蓝色的部分即为 One Stream Architecture。

Two StreamArchitecture:

  即Figure 1 完整版,因为One StreamArchitecture不能很好的建模实际情况:视频通常由静态的背景和动态的前景构成。

  所以设计了双路的生成模型分别用来生成静态背景 Background 和前景动态Foreground。然后利用:

G2(z)=m(z)⊙f(z)+(1−m(z))⊙b(z).” role=”presentation” style=”text-align: center; position: relative;”>G2(z)=m(z)f(z)+(1m(z))b(z).G2(z)=m(z)⊙f(z)+(1−m(z))⊙b(z).
G_2(z) = m(z)\odot f(z) + (1-m(z))\odot b(z).
  合并前景和背景。

DiscriminatorNetwork

  直接利用和生成模型对称的卷积网路结构用来作为判别模型。

Learningand Implementation

  利用SGD来训练模型。激活函数采用ReLU。

数据集的处理

  对于特征表示的学习可以直接利用unlabeled videos.

  对于GAN网络的训练,采用Places2 pre-trained model 来进行过滤视频(依据场景类别),最后利用的四个场景类别:golf course, hospital rooms, beaches andtrain station.

  同时对于相机抖动进行处理,防止出现背景变化的情况。

实验结果

  tinyvideo 可以看到生成的动态视频。

对于实验结果如何评价

  Evaluation Metric: We quantitatively evaluate our generation using apsychophysical two-alternative forced choice with workers on Amazon MechanicalTurk.

  即人工评判,对照实验为 AutoEncoder (即Discriminator>endoer,Generator->decoder)

Video Representation Learning

  即将GAN模型的Discrimination部分作为特征视频表示学习的模型。

实验证明效果挺好。

Future Generation

  即CGAN (Conditional GAN), 利用静止的图片作为输入的condition。

​  同时加一个约束:input 和 generator生成的第一帧直接的L1 loss.

确保生成的视频和输入保持一致。



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值