《Video Generation from text》论文笔记

论文名:Video Generation from text

时间:2017.8.1

作者:Yitong Li(Duke U)等

来源:arXiv:1710.00421v1 [cs.MM]

 

 

中心思想:论文提出一种混合网络结构——CVAE-GAN,用于从文本描述中生成具有运动动态的视频(首次)。结构包括gist 生成器、Video生成器、判别器,提出Text2Filter结构用于获取文本中的动态信息。同时提出一种从公开在线视频中自动创建匹配text-video库的方法。通过实验验证了所提出的方法优于使用text-to-image生成视频的强基线模型,并验证了各个结构的必要性。

 

创新点:1、gist生成器用于生成背景颜色以及目标层次结构(静态特征);

         2、Text2Filter结构用于获取文本中的动态信息

         3、视频生成器从文本中提取动态信息以及细节信息

         4、引入isometric高斯噪音,结合text-gist向量,形成Zu,,确保了视频运动多样性以及合成细节信息。

 


 

实验结论:

 


 

方法:

网络结构:

损失函数:

 


相关知识点:

  1. 未来帧预测中,在给出的视频帧间学习一个非线性转换函数用于预测未来帧。
  2. Text-to-Video任务不同于从视频中产生字幕,前者具有更多的自由度。
  3. 当前一些工作将视频分解成静态背景、Mask以及运动目标。
  4. 本文中,将视频生成任务分解成两个部分:首先用一个conditional VAE从输入文本生成视频的的“gist”;然后视频的内容和运动的生成基于gist和输入文本。
  5. Video是4Dtensor,中间的每一帧都包含2D帧以及颜色信息和spatiotemporal dependency。
  6. 当生成新视频的时候,网络结构中Zg之前的视频编码器用高斯分布噪音代替。
  7. VAE:当神经网络要输入大量的信息时,比如高清图片,输入的图像数量成千上万,要神经网络直接从输入的数据量中进行学习,是一件非常费力不讨好的工作,此时,可以对其进行压缩。提取出原图片中最具代表性的信息,缩减输入中的信息量,然后把缩减后的信息放入到神经网络中学习,这样学习起来就变的轻松了,所以自编码器能在这个啥时候发挥作用。自编码器是一种非监督学习。编码器能得到源数据的精髓,解码的时候,用信息量小却包含了所有信息的文件来恢复出原来的图片。
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值