Video generation models as world simulators-视频生成模型作为世界模拟器
我们探索在视频数据上进行大规模生成模型的训练。具体来说,我们联合训练文本条件扩散模型,同时处理不同持续时间、分辨率和长宽比的视频和图像。我们利用一个在视频和图像潜在编码的时空块上运行的转换器结构。我们最大的模型Sora能够生成一分钟高保真度视频。我们的结果表明,扩展视频生成模型是建立物理世界通用目的模拟器的一个有前途的途径。这份技术报告着重介绍了两个方面:(1) 我们将各种类型的视觉数据转化为统一表示形式的方法,从而实现生成模型的大规模训练;和 (2) 对Sora的能力和局限性进行定性评估。
原创
2024-02-22 16:19:29 ·
1740 阅读 ·
0 评论