跟无神学AI之一文读尽Sora

openAI发布视频生成模型Sora,意味着人类距离AI模拟世界又近了一步,流浪地球2中数字人女儿也是对未来科技发展的一个缩影。

作为最具有代表性的大模型公司,openAI的任何一个产品都具有一定的价值,代表着AI的前沿发展方向。

博主今天较为仔细地阅读了openAI的Sora技术报告,参考开源资料对其中的技术进行了一定的总结,将感悟与各位在此进行分享:

Video generation models as world simulators

Sora的中文为空的意思,延伸含义是无穷尽。为2.15发布的一款视频处理的通用大模型。

技术报告中主要交代了训练模型的数据处理方法以及一些功能的评估和介绍。

之前的模型对于视频的处理的功能都比较狭窄。Sora作为通用的视频数据处理大模型,能够处理尺寸不一的视频,生成分辨率比较高的视频。

Turning visual data into patches

Sora在互联网范围上的数据进行训练,使用了patches这个概念,博主的理解是将视频划分成每一帧的图片,然后将图片用像素点进行表示,每一个视频的所有图片组成的这样一个数据结构就叫做patches,可以理解为视频的一种机器表示,只有对训练数据进行表示,模型才能将之进一步处理。

Figure Patches

 

用上图的编码器将图片变成高维度后再解压成低维度(低维度是按照时空进行组合的)。

Video compression network

使用以上产生的训练数据进行训练,必须得再训练一个解码器将产生的视频表示再转化成视频。

Spacetime latent patches

对训练数据的归一化是通过将包的尺寸转换成合适的网来完成的

Scaling transformers for video generation

Sora是一个diffusion model,能够根据描述进行文生图。Transformer在文生图任务上有不俗的表现:

Figure Diffusion

 

当训练资源增加时,效果能变得更好。所以这也是美丽国用计算资源来限制我国科技发展的一个重要原因

Variable durations, resolutions, aspect ratios

不同于原始的一类输入数据对应一个模型,openAI团队发现将不同尺寸的视频作为训练数据能够具备一定优势:

长宽比例不同的视频能够使用一个模型输出出来

如此保持训练数据的原始能够使得模型产生的视频是完整的(构图更加符合自然)

Language understanding

使用了GPT和DALL·E去分别进行提示词扩展和图生文的描述产生,后者是该公司的另一个产品,想要详细了解可以观看另一篇论文。

Prompting with images and videos

还能用图片和视频作为输入进行其他处理,如拼接、循环等

以下就是该模型的一些具体功能,多种功能也体现其通用性:

Animating DALL·E images

能够以图片和提示词产生视频:将静态图片转换成视频

A Shiba Inu dog wearing a beret and black turtleneck.

Monster Illustration in flat design style of a diverse family of monsters. The group includes a furry brown monster, a sleek black monster with antennas, a spotted green monster, and a tiny polka-dotted monster, all interacting in a playful environment.

An image of a realistic cloud that spells “SORA”.

In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.

Extending generated videos

视频拓展

Video-to-video editing

切换视频场景

Connecting videos

视频拼接

Image generation capabilities

文生图,最高2049×2048分辨率

Close-up portrait shot of a woman in autumn, extreme detail, shallow depth of field

Vibrant coral reef teeming with colorful fish and sea creatures

Digital art of a young tiger under an apple tree in a matte painting style with gorgeous details

A snowy mountain village with cozy cabins and a northern lights display, high detail and photorealistic dslr, 50mm f/1.2

Emerging simulation capabilities

一些新出现的模拟性能优势:

3D consistency.更加符合3D空间构图

Long-range coherence and object permanence. 长距离一致性和流畅

Interacting with the world. 表现出一些物体与世界的交互性,因此也体现了其对AI虚拟世界的重大潜力。

Simulating digital worlds. 自动控制游戏,模拟机器行为

Discussion

作为一个模拟器Sora还是存在局限性的,比如对于一些如玻璃打碎等行为不能很好地模拟,吃东西有时不能正确地表现,并且在测试中展现出一些不流畅性等,总而言之还是存在问题的。

国内阿里魔搭社区的爱好者对其模型架构做了一个猜想:

总结:该技术报告展现了数据表示、功能、优势、存在的缺陷,没有交代模型具体架构和具体的训练数据,毕竟这也是AI顶尖团队的商业机密,作为一个黑箱模型的代表,Sora对各行各业又是一个冲击。

觉得有用的话欢迎给个一键三连哦!

关注无神一起学AI!欢迎评论区留言探讨!

  • 19
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值