2024年2月15日在中国新年还没过完的时候,OpenAI 发布的Sora,这是AI视频生成领域的‘Midjourney时刻’,Sora将Diffusion模型和Transformer模型相结合,在视觉领域实现了大语言模型类似的突破,这将类似于ChatGPT一样,将在视觉生成领域带来一次重大的技术和商业革命。
Sora是一个通过文字来生成视频的AI大模型,Sora有重要四点突破:
- 1.将视频生成从5-15秒,提升到了1分钟,这个长度已经足够支持短视频创作需求,从OpenAI的技术报告看,视频时长是可以更长的;在保真度、稳定度、文字理解上都做到了STOA。
- 2.可以生成多个镜头,并且各个镜头具有角色和视觉风格的一致性;
- 3.除了文字prompt生成视频,也支持视频到视频编辑,也能够连贯拼接不同类型的视频;
- 4.产生了涌现现象,对现实世界有了更深刻的理解和互动能力,具有了世界模型的雏形;
虽然OpenAI的技术报告中并没有模型和训练技术细节,但是从参考文献看,主要是Google和Meta的技术文档,更多的是现有技术的整合和优化&