Sora技术报告——Video generation models as world simulators
我们在视频数据上探索生成模型的大规模训练。具体来说,我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用一个transformer 架构来操作视频和图像潜在代码的时空补丁(spacetime patches of video and image latent codes)。我们最大的模型Sora能够生成一分钟的高保真视频。我们的研究结果表明,缩放视频生成模型(scaling video generation models)是构建物理世界通用模拟器的有希望的途径。
原创
2024-02-16 18:23:36 ·
1838 阅读 ·
0 评论