开源版视频Diffusion Transformer来了吗?
视频生成技术如何提高生成质量是一个难题,如何更好的挖掘时序、空间的信息?采用何种架构对模型进行建模?这些都值得探索。本文提出了一个全新的Latent Diffusion Transformer,名为Latte,用于视频生成。其目标是在潜在空间中对视频分布进行建模,并提高生成视频的质量。亮点总结:Latte采用Transformer技术实现了视频生成的模型革新。创新性地提取空间-时间标记并在潜在空间建模视频,效果在多个视频生成数据集上取得sota。四种效率变体的引入允许更灵活地处理视频数据。
原创
2024-03-01 21:10:39 ·
1250 阅读 ·
0 评论