《Video Generation from text》论文笔记

最新推荐文章于 2024-01-31 17:38:28 发布

XMoyas

最新推荐文章于 2024-01-31 17:38:28 发布

阅读量2.6k

点赞数 1

论文名：Video Generation from text

时间：2017.8.1

作者：Yitong Li(Duke U)等

来源：arXiv:1710.00421v1 [cs.MM]

中心思想：论文提出一种混合网络结构——CVAE-GAN，用于从文本描述中生成具有运动动态的视频（首次）。结构包括gist 生成器、Video生成器、判别器，提出Text2Filter结构用于获取文本中的动态信息。同时提出一种从公开在线视频中自动创建匹配text-video库的方法。通过实验验证了所提出的方法优于使用text-to-image生成视频的强基线模型，并验证了各个结构的必要性。

创新点：1、gist生成器用于生成背景颜色以及目标层次结构（静态特征）；

2、Text2Filter结构用于获取文本中的动态信息

3、视频生成器从文本中提取动态信息以及细节信息

4、引入isometric高斯噪音，结合text-gist向量，形成Zu，，确保了视频运动多样性以及合成细节信息。

实验结论：

方法：

网络结构：

损失函数：

相关知识点：

未来帧预测中，在给出的视频帧间学习一个非线性转换函数用于预测未来帧。
Text-to-Video任务不同于从视频中产生字幕，前者具有更多的自由度。
当前一些工作将视频分解成静态背景、Mask以及运动目标。
本文中，将视频生成任务分解成两个部分：首先用一个conditional VAE从输入文本生成视频的的“gist”；然后视频的内容和运动的生成基于gist和输入文本。
Video是4Dtensor，中间的每一帧都包含2D帧以及颜色信息和spatiotemporal dependency。
当生成新视频的时候，网络结构中Zg之前的视频编码器用高斯分布噪音代替。
VAE：当神经网络要输入大量的信息时，比如高清图片，输入的图像数量成千上万，要神经网络直接从输入的数据量中进行学习，是一件非常费力不讨好的工作，此时，可以对其进行压缩。提取出原图片中最具代表性的信息，缩减输入中的信息量，然后把缩减后的信息放入到神经网络中学习，这样学习起来就变的轻松了，所以自编码器能在这个啥时候发挥作用。自编码器是一种非监督学习。编码器能得到源数据的精髓，解码的时候，用信息量小却包含了所有信息的文件来恢复出原来的图片。

XMoyas

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
3
评论
《Video Generation from text》论文笔记

论文名：Video Generation from text 时间：2017.8.1 作者：Yitong Li(Duke U)等来源：arXiv:1710.00421v1 [cs.MM] 中心思想：论文提出一种混合网络结构——CVAE-GAN，用于从文本描述中生成具有运动动态的视频（首次）。结构包括gist 生成器、Video生成器、...
复制链接

扫一扫