T2I论文阅读笔记——TivGAN 文本生成视频

TivGAN Text to Image to VIdeo Generation with Step by Step Evolutionary Generator论文阅读笔记
论文源地址:https://arxiv.org/pdf/2009.02018.pdf
出版于2020.8.19 发表在IEEE Access

本人的话:一些翻译不来的词会直接写英文原文。没有网络整体的细节,不建议复现。

摘要

本论文提出了一个全新的框架——Text-to-Image-to-Video GAN(TiVGAN),希望实现从文本生成视频。原理主要是逐帧生成最后成为一段完整的视频。在第一阶段,我们专注于通过学习文本与图片的关系生成一个高质量的单个视频帧,然后再将模型用于更多的连续帧上面。

关键词:计算机视觉,深度学习,GAN,视频生成,文本生成视频;

介绍

近来,变分自编码器(Variational Auto Encoders, VAEs)和GANs代表了最前沿的生成领域的研究。
图片生成只关心单个帧的完整性,而视频生成还需要考虑到帧与帧之间的联系。此外,所有公开的视频数据集很diverse和unaligned,使得视频生成任务更加地复杂。
关于text-to-video的研究很稀少,并且相比于T2I,分辨率低。
本研究针对生成与给定文本相匹配的视频的问题,提出了一个新的网络,它建立在视频的连续帧具有很大连续性的基本概念上。如果我们创建了一个高质量的视频帧,那么会很容易地在创建一个相关的连续帧。
TiVGAN的整体框架

相关工作

“Generating videos with scene dynamics”这篇论文通过对每个场景进行2D空间卷积和3D时空卷积分离了场景的背景与前景。
TGAN使用两个不同的generator来实现时间向量采样和基于已获得向量的多个帧的创建。
MoCoGAN建议通过对动作和内容空间的分离来生成有效的视频。他们使用了一个RNN来从动作子空间采样,然后再和内容向量concat生成连续帧。
“Video generation from text”这篇论文使用条件VAE来生成一个要点‘gist’,gist指视频背景颜色和object layer,然后视频内容和动作基于gist和文本生成。
“To create what you tell: Generating videos from captions”介绍了一个全新的框架,它使用了3D卷积和不同类型的loss。
"Conditional gan with discriminative filter generation for text-to-video synthesis"使用了multi-scale text conditioning scheme with GANs.

方法

我们将训练过程分为:Text-to-Image Generation和Evolutionary Generation。如下图:

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值