xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

本文是LLM系列文章,针对《xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations》的翻译。

xGen-VideoSyn-1:具有压缩表示的高保真文本到视频合成

摘要

我们提出了xGen-VideoSyn-1,这是一种文本到视频(T2V)生成模型,能够从文本描述中生成逼真的场景。我们通过引入视频变分自编码器(VidVAE)来扩展潜在扩散模型(LDM)架构。我们的视频VAE在空间和时间上压缩视频数据,显著减少了视觉标记的长度以及与生成长序列视频相关的计算需求。为了进一步解决计算成本问题,我们提出了一种分割合并策略,该策略可以保持视频片段之间的时间一致性。我们的扩散Transformer(DiT)模型结合了空间和时间自我关注层,实现了跨不同时间框架和纵横比的鲁棒泛化。我们还设计了一个数据收集和处理管道,帮助我们收集了1300多万对高质量的视频文本。该流程包括剪切、文本检测、运动估计、美学评分和基于我们的xGen MM视频语言模型的密集字幕等步骤。训练视频VAE和DiT模型分别需要大约40天和642个H100天。我们的模型以端到端的方式支持超过14秒的720p视频生成,并展示了与最先进的T2V模型相比的竞争性能。

1 引言

2 相关工作

</

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值