Gen-L-Video: Multi-Text to Long Video Generation via Temporal Co-Denoising
我们引入了一种新的范式,称为 Gen-L-Video,能够扩展现成的短视频扩散模型,以生成和编辑包含数百个具有不同语义片段的帧的视频,而无需引入额外的训练,同时保持内容的一致性。我们已经实现了三种主流的文本驱动视频生成和编辑方法,并扩展了它们以适应更长的视频,其中包含我们提出的范式的各种语义片段。我们的实验结果表明,我们的方法显着拓宽了视频扩散模型的生成和编辑能力,为未来的研究和应用提供了新的可能性。
复制链接