一、Sora - 探索AI视频模型的无限可能
随着人工智能技术的飞速发展,AI视频模型已成为科技领域的新热点。而在这个浪潮中,OpenAI推出的首个AI视频模型Sora,以其卓越的性能和前瞻性的技术,引领着AI视频领域的创新发展。与之前大火的Pika,runway相比,OpenAI这次可以说是绝杀了之前所有的Text To Video(文生视频)领域的AI产品。
之前的AI生成视频的软件,例如Pika只能生成4秒左右的视频,而且对使用者的提示词水平要求极高,prompt写的但凡差一些,生成的视频质量就难以然人满意。
这一次OpenAI推出的Sora直接可以生成长达一分钟的视频,质量还能达到1080P的水平,并能360°切换视频的角度。小编只能说:“太酷了!!!”。
只需要一段简单的提示词Sora就能最大限度的实现你的目的
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
只需要输入上面这段prompt就能得到下面这个视频:
二、技术报告:
就在几小时后,OpenAI Sora的技术报告也发布了!
其中,「里程碑」也成为报告中的关键词。
技术报告主要介绍了两个方面:
(1)如何将不同类型的视觉数据转化为统一的格式,以便于对生成模型进行大规模训练的方法;
(2)对Sora的能力和局限性的定性评价。
不过遗憾的是,报告不包括模型和实现细节。嗯,OpenAI还是那个「OpenAI」。
此前,OpenAI的研究者一直在探索的一个难题就是,究竟怎样在视频数据上,应用大规模训练的生成模型?
为此,研究者同时对对持续时间、分辨率和宽高比各不相同的视频和图片进行了训练,而这一过程正是基于文本条件的扩散模型。
他们采用了Transformer架构,这种架构能够处理视频和图片中时空片段的潜代码。
随之诞生的最强大模型Sora,也就具备了生成一分钟高质量视频的能力。
OpenAI研究者发现了令人惊喜的一点:扩展视频生成模型的规模,是构建模拟物理世界通用模拟器的非常有希望的方向。
也就是说,顺着这个方向发展,或许LLM真的能够成为世界模型!
以前的许多研究,都是通过各种技术对视频数据进行生成模型建模,比如循环网络、生成对抗网络、自回归Transformer和扩散模型等方法。
它们往往只关注于特定类型的视觉数据、较短的视频或者固定尺寸的视频。
而Sora与它们不同,它是一种通用的视觉数据模型,能够生成各种持续时间、宽高比和分辨率的视频和图片,甚至长达一分钟的高清视频。
有网友表示,「Sora虽然有一些不完美之处(可以检测出来),例如从物理效果可以看出它是人工合成的。但是,它将会革命性地改变许多行业。
想象一下可以生成动态的、个性化的广告视频进行精准定位,这将是一个万亿美元的产业」!
LLM之所以会成功,就是因为它们在互联网规模的数据上进行了训练,获得了广泛能力。
它成功的一大关键,就是使用了token,这样,文本的多种形态——代码、数学公式以及各种自然语言,就优雅地统一了起来。
OpenAI的研究者,正是从中找到了灵感。
该如何让视觉数据的生成模型继承token的这种优势?
注意,不同于LLM使用的文本token,Sora使用的是视觉patch。
此前已有研究表明,patch对视觉数据建模非常有效。
OpenAI研究者惊喜地发现,patch这种高度可扩展的有效表征形式,正适用于训练能处理多种类型视频和图片的生成模型。
从宏观角度来看,研究者首先将视频压缩到一个低维潜空间中,随后把这种表征分解为时空patch,这样就实现了从视频到patch的转换。
视频压缩网络
研究者开发了一个网络,来减少视觉数据的维度。
这个网络可以接受原始视频作为输入,并输出一个在时间上和空间上都进行了压缩的潜表征。
Sora在这个压缩后的潜空间中进行训练,之后用于生成视频。
另外,研究者还设计了一个对应的解码器模型,用于将生成的潜数据转换回像素空间。
潜空间patch
对于一个压缩后的输入视频,研究者提取看一系列空间patch,作为Transformer的token使用。
这个方案同样适用于图像,因为图像可以被视为只有一帧的视频。
基于patch的表征方法,研究者使得Sora能够处理不同分辨率、持续时间和纵横比的视频和图像。
在推理时,可以通过在一个合适大小的网格中适当排列随机初始化的patch,从而控制生成视频的大小。
三、局限性:
诚然,Sora在AI生成视频领域以可以成为优秀,但是,它距离AGI依旧很遥远。
在这个视频中,玻璃杯碎裂的方式十分诡异——
它被抬到半空中时,桌子上就忽然出现了一滩平整的红色玻璃,随后玻璃杯被摔到桌子上,和这滩玻璃融为一体。
很显然,Sora混淆了玻璃破碎和液体溢出的顺序,也并不能推理时间和因果关系。
而这也说明,Sora目前还无法理解物理世界!这也就反驳了之前英伟达科学家说Sora可能是一个物理世界模拟器。
但不可否认的是,人类在AGI的道路上又进了一步,未来依旧可期!