44、Sora+Apple Vision Pro:鹰酱AGI+元宇宙只需一年?

OpenAI趁着咱们春节期间偷偷发布了首款文生视频模型Sora:

超层次的AI模型:

OpenAI正在教授AI理解和模拟运动中的物理世界,目标是训练能够帮助人们解决需要真实世界互动的问题的模型。Sora可以生成长达一分钟的视频,并具有一定的理解能力,同时保持视觉质量并遵循用户的提示。

Sora是什么?

60s超长长度:pika和runway还只能生成4s视频,这60s直接拉开了差距。而且动作连续,还有一定的艺术性,没有生硬的感觉。

单视频多角度镜头:在60s的视频内,可以在保持主角色不变的高度一致性的同时,还生成多个不同角度的分镜。

世界模型:Sora有时能够模拟对世界状态产生简单影响的行为。例如,画家可以在画布上持续添加新的笔触,或者一个人吃汉堡时留下咬痕。这个就厉害了,基于虚幻引擎5(Unreal-Engine-5)的Sora它是能理解物理世界的。

Sora解决什么问题?

1.技术上遥遥领先

他跟之前的runway和pika都不是一个物种,Sora是跟ChatGPT一样是有理解能力的,它可以感知真实的物理世界和自然语言。

2.大幅度降低了短视频制作的成本

只需一个简单的提示词,就能生成一段制作精良的60秒视频。还支持使用图片或视频片段进行扩展,生成全新的视频。同时也支持将两个视频合并整合成一个新的视频。原先汽车广告视频要花费大量的人力物力,是不是可以AI生成了?电影宣传片是不是也可以?短视频和短片本身就短那就更没问题了吧?

但是需要创意和价值观的电影一时半会还不能被替代。因为需要好的估时剧本,好的导演,好的演员,大家配合才能演绎出一个经典的电影。

3.生成4K图片

Sora 还能够生成图像,分辨率高达 2048x2048。除了Midjourney和Dall-E又有了个新的选择。

Sora技术原理

Sora的训练受到了大语言模型(Large Language Model)的启发。这些模型通过在互联网规模的数据上进行训练,从而获得了广泛的能力。

Sora实际上是一种扩散型变换器模型(Diffusion Transformer)

它能够通过从一开始看似静态噪声的视频出发,通过许多步骤逐步消除噪声,最终生成视频。

Sora 不仅可以一次性生成完整的视频,还能扩展已生成的视频,使其更加长久。通过让模型能够预见多帧内容,我们成功克服了确保视频主体即便暂时消失也能保持一致性的难题。

Sora 借鉴了 GPT 模型的成功,采用了 Transformer 架构,实现了前所未有的扩展性能。

我们把视频和图像分解为小的数据单元——补丁,每个补丁相当于 GPT 中的一个词语。通过统一数据的表达方式,我们得以在更广泛的视觉数据上训练扩散 Transformer,这些数据覆盖了不同的时长、分辨率和画面比例。

Sora 在 DALL·E GPT 的研究基础上进一步发展。它利用了 DALL·E 3 的重新标注技术,为视觉训练数据生成高度描述性的说明文字。结果是,模型能够更加忠实地根据用户的文本指示生成视频。

除了能够仅凭文本指令生成视频外,Sora 还能够将现有的静态图像转化为视频,精确地动画化图像内容,并注意到细小的细节。模型也能够扩展现有视频或补全缺失帧。更多详情请参阅我们的技术报告。

Sora 为理解和模拟现实世界的模型奠定了基础,这是实现人工通用智能(AGI)的重要里程碑。

国内AI一些大佬对Sora做出评价:因为Sora超强的性能,美国AGI将从10年缩短为1-2年,可以想象,当我们带上Apple Vision Pro,对着Sora说一些自己的设想,比如想去哪旅游,想去火星漫步,想去马里亚纳海沟摸摸巨龟,化身闪电侠超光速奔跑逆行时间,上天下地,都可以凭借这两者实现。

Apple Vision Pro官网示例:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是馒头阿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值