论文名:Video Generation from text 时间:2017.8.1 作者:Yitong Li(Duke U)等 来源:arXiv:1710.00421v1 [cs.MM]
|
中心思想:论文提出一种混合网络结构——CVAE-GAN,用于从文本描述中生成具有运动动态的视频(首次)。结构包括gist 生成器、Video生成器、判别器,提出Text2Filter结构用于获取文本中的动态信息。同时提出一种从公开在线视频中自动创建匹配text-video库的方法。通过实验验证了所提出的方法优于使用text-to-image生成视频的强基线模型,并验证了各个结构的必要性。
创新点:1、gist生成器用于生成背景颜色以及目标层次结构(静态特征);
2、Text2Filter结构用于获取文本中的动态信息
3、视频生成器从文本中提取动态信息以及细节信息
4、引入isometric高斯噪音,结合text-gist向量,形成Zu,,确保了视频运动多样性以及合成细节信息。
实验结论:
方法:
网络结构:
损失函数:
相关知识点:
- 未来帧预测中,在给出的视频帧间学习一个非线性转换函数用于预测未来帧。
- Text-to-Video任务不同于从视频中产生字幕,前者具有更多的自由度。
- 当前一些工作将视频分解成静态背景、Mask以及运动目标。
- 本文中,将视频生成任务分解成两个部分:首先用一个conditional VAE从输入文本生成视频的的“gist”;然后视频的内容和运动的生成基于gist和输入文本。
- Video是4Dtensor,中间的每一帧都包含2D帧以及颜色信息和spatiotemporal dependency。
- 当生成新视频的时候,网络结构中Zg之前的视频编码器用高斯分布噪音代替。
- VAE:当神经网络要输入大量的信息时,比如高清图片,输入的图像数量成千上万,要神经网络直接从输入的数据量中进行学习,是一件非常费力不讨好的工作,此时,可以对其进行压缩。提取出原图片中最具代表性的信息,缩减输入中的信息量,然后把缩减后的信息放入到神经网络中学习,这样学习起来就变的轻松了,所以自编码器能在这个啥时候发挥作用。自编码器是一种非监督学习。编码器能得到源数据的精髓,解码的时候,用信息量小却包含了所有信息的文件来恢复出原来的图片。