2024年2月15日在中国新年还没过完的时候,OpenAI 发布的Sora,这是AI视频生成领域的‘Midjourney时刻’,Sora将Diffusion模型和Transformer模型相结合,在视觉领域实现了大语言模型类似的突破,这将类似于ChatGPT一样,将在视觉生成领域带来一次重大的技术和商业革命。
Sora是一个通过文字来生成视频的AI大模型,Sora有重要四点突破:
- 1.将视频生成从5-15秒,提升到了1分钟,这个长度已经足够支持短视频创作需求,从OpenAI的技术报告看,视频时长是可以更长的;在保真度、稳定度、文字理解上都做到了STOA。
- 2.可以生成多个镜头,并且各个镜头具有角色和视觉风格的一致性;
- 3.除了文字prompt生成视频,也支持视频到视频编辑,也能够连贯拼接不同类型的视频;
- 4.产生了涌现现象,对现实世界有了更深刻的理解和互动能力,具有了世界模型的雏形;
虽然OpenAI的技术报告中并没有模型和训练技术细节,但是从参考文献看,主要是Google和Meta的技术文档,更多的是现有技术的整合和优化,Sora的秘诀也是Scaling Law,当模型足够大的时候,就会产生智能涌现的能力。
上面图片中展示的大模型训练的暴力美学在2020年已经发表[paper],为什么继文本之后,视频创作领域还是OpenAI拿到第一个果子呢?源于信念,对于scaling law的执念,英伟达和OpenAI都将其称为世界模型,这是由数据驱动的世界模型,其影响力不亚于英国的工业革命、美国的信息革命,对scaling law的执念将决定谁将是下一个世界霸主,对AGI基础技术的突破,留给中国的时间并不多了。
回到正文上来,AI视频生成的技术路线主要经历了RNN、GAN、自回归模型和扩散模型四个阶段,而Sora融合了Diffusion和自回归模型的双重特性,Diffusion Transformer架构由加利福尼亚伯克利分校和纽约大学的两位教授于2023年提出paper。
OpenAI训练该模型的思路是用一种patch(视频补丁)作为视频数据来训练视频模型的方式
从上图可以看到,和文本的Embedding思想非常相似,首先通过Embedding的方式将人类理解的文本和图像分别转成Token和patch,Token是大语言模型统一了代码、数学、各种自然语言等,属于文本领域的最小可识别单位,path统一了图像和视频,属于可识别最小单位,图中每一个灰色小框就是一个path,其最后一列是一个在时间和空间上都被压缩了的潜在表示(latent representation),这一好处是可以直接对不同尺寸、像素的原始视频进行path化,Sora就是在这个压缩的潜在空间上进行训练,并随后生成视频。
和大语言模型一样,还需要将机器语言转为人类可以理解的文本语言,在文本领域这是通过Attention之后网络层(解码层)实现的,在Sora输出视频时同样需要解码器。
解码器的作用是将机器理解的视频信息,即潜在表示,映射成人类可以理解的像素空间,OpenAI表示,过去图像和视频的生成方法通常会将视频调整大小、裁剪或者修剪为标准尺寸,但这会损失视频的生成质量,而patch化就不会,这使得Sora的采样灵活性比较高,并且使得构图和取景更准确。
在语言理解层面,对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量,为此OpenAI应用了DALLE3中引入的re-captioning 技术,首先训练一个高度描述性的字幕生成器模型,然后使用它为训练数据集中的视频生成文本字幕。
最后,也不是吹捧sora,当然Sora也有一些缺点,生成的视频也存在一些违法物理原理、因果关系、时间推移上逻辑关系的一些问题。不过这并不影响将其定性为人类AGI领域的“核弹级”突破。