sora(https://openai.com/research/video-generation-models-as-world-simulators)
sora能力:
- 文本生成视频(调整分辨率,改变视频框架和构图)
- 静态图变动态图
- 往前和往后扩展视频
- 创建无缝循环视频
- prompt编辑视频
- 两个视频前后拼接融合
其他:也支持生成图片
浮现的能力:
- 3D一致性(摄像机镜头移动)
- 长时间的保持对象一致性(视频主角不发生变化)
- 与世界交互(绘画,绘制图像变化;吃汉堡,汉堡被咬一口)
- 模拟数字世界(迷你世界游戏)
问题:
- 物理特性的互相作用,模拟不正确。例如:水杯倒了、玻璃破碎。
- 长时间视频的不连贯,物体的自发出现(莫名其妙的出现一个物体)