【Gen-3 Alpha重磅发布】Sora竞争对手+1!

6月17日晚,著名生成式AI平台Runway在官网发布了,全新文生视频模型——Gen-3 Alpha

与Gen-2相比,Gen-3在生成视频的质量、色彩、饱和度、光影、文本语义还原、运镜、动作一致性、场景切换等实现大幅度提升。

此外,Gen-3和Sora、可灵、Dream Machine一样是个世界模型,具备模拟物理世界的能力。也就是说,其生成视频的物理效果,例如,下落、碰撞、触摸、风吹、生长、雨水等都非常逼真

值得一提的是,Runway的联合创始人曾在今年2月25日说过,要做出比Sora更好的文生视频,果然兑现了诺言。

58f4fdd73d494d14b050ec0496fc35e1.png

Gen-3案例展示与解读

虽然Gen-3还没有正式全面公测,但已经邀请了影视、开发等人员进行了内测,流出来的视频效果非常棒, 一次可以生成11秒的视频。

下面「AIGC开放社区」选了一些非常有特色的Gen-3视频,并为大家解读它们到底好在哪里。

例如,一顶卷发假发和墨镜突然落在他的头上,一位悲伤的秃头中年男人变得高兴起来。

在这个案例中,我们可以仔细观察他的眼睛睁开速度和嘴巴逐渐微笑的走势,以及戴上假发、墨镜之后,笑容发生的微妙变化,是不是看起来非常逼真。

在高速行驶的火车车窗旁,一名女子的微妙倒影,这个主要体现了Gen-3强大的光影能力。

火车在飞速行驶中,车窗外的霓虹灯照在女人的脸上,在她的脸颊、鼻子上都有不同层次的效果,同时她受到光的刺激后,还会自然地眨眼,这一点很人性化、很了不起

这个在闹市的火焰圈,也展示出了同样的光影渐变效果。

一位年轻女子驾驶汽车的特写镜头,看上去若有所思,透过雨天的车窗可以看到模糊的绿色森林。这个和上一个火车女的案例差不多,但生成的难度要大很多。

首先,要体现女子的表情,文本要求的是“若有所思”,Gen-3选择使用紧闭嘴巴和不眨眼来表现;

其次就是透过雨天的车窗,这就需要雨点在汽车高速行驶之下表现出不同的雨水拍打效果。整体来看,完成的非常棒!

一个晶莹剔透的水晶盒,有一些彩色的球掉落下来。我们观察到,第一批掉落下来的篮球、绿球、黄球的回弹性非常好,随着掉落的球越来越多,弹性也变得缓慢起来,这个展示的就是物理下落和碰撞等效果。

一个蚂蚁从巢穴中出来的,很近的特写镜头。镜头拉回来,露出山那边的一个街区。这个主要体现了Gen-3的运镜、场景切换的能力。

给完蚂蚁特写之后,就是一个非常大的远景运镜,接着就要缓慢生成远处的街景,这对场景的连贯、一致性要求非常高

空中拍摄的海洋,水中形成漩涡、不断旋转,直到露出下面炽热的深处。这个也是运镜和场景切换能力。

手持跟踪拍摄,跟踪废弃街道上漂浮的红色气球。这个展示了近大远小的物理效果,我们看到随着气球逐渐飘向远方,气球正在缓慢变小但是毫无违和感;再就是光影效果,仅在10秒钟镜头的光影却发生了两次变化,一次是短、一次是长

一个废旧的空仓库,从地下冒出来一大片奇妙的绿色丛林。注意深林在出现的过程中发生了两次生成变化。

第一次,草坪是平的,在马上要见到阳光后,平的草坪立马变成了绿色的植被,同时遮盖住透进来的阳光。整个生长过程,基本是符合现实世界的规律。

世界模型的重要性

从上面这些案例,能体会到模拟物理世界的重要性了吧。其实,世界模型应用最广泛的是在汽车自动驾驶,可以帮助汽车在变化多端的环境中做出明智的决策、规划行动。

所以,OpenAI、Runway等也希望把该技术引入到文生视频领域,来增强生成视频的质量。

602a37ba7541ab76acd86434c6b88bc7.png

但开发特定的世界模型并不容易,首先需要对现实世界的动态和结构进行精确捕捉和模拟。这涉及到物体的物理属性,比如它们的大小、形状和质地,还有它们如何随时间在环境中移动和变化

例如,在自动驾驶汽车领域,它需要一个能够准确预测其他车辆、行人、交通信号和道路条件变化的世界模型。

物理模拟是世界模型中核心模块之一,它允许AI模拟现实世界的物理定律,这对于预测物体如何运动和相互作用至关重要。例如,机器人在抓取物体时,它需要模拟物体的重量和可能的移动轨迹,以确保动作的精确和稳定。

此外,需要大量多类型数据,包括视频、图片、传感器等提供了源源不断的环境信息。然后通过深度学习、极佳的算法从这些数据中提取特征,学习规律,模拟出能够反映现实世界的模型。

世界模型不仅能体现当前的状态,其预测能力也是非常强。通过学习历史数据和模式,模型能够预测未来可能发生的情况,我们从视频生成的效果就能看出这一点,例如,那个在仓库中生长出绿色强的案例。

0b69abd3662d53b13eca7a2f44b3b715.png

此外,世界模型使机器能够与环境进行交互,实时根据环境反馈调整行为。例如,自动驾驶汽车在行驶中会不断更新其世界模型,以反映周围环境的最新变化,并据此做出快速而准确的驾驶决策;

而文生视频模型,可以根据文本语义提示,在生成过程中实时调整生成的内容更好地还原文本提示。

2024-文生视频元年

在今年2月,Sora席卷全球成为现象级产品时,就有网友问过Runway的联合创始人Cristóbal Valenzuela:“几个月后,Runway能做出与Sora类似的产品吗?”

Cristóbal回答的也比较简单直接,会比Sora更好。从Gen-3生成的效果来看,他确实没吹牛做到了。

dcb0d4baec3e286efc5d9780b1e60c4b.png

不少网友表示,Gen-3出现后,Sora迎来了最强竞争对手,整个文生视频赛道的竞争也变得更加残酷。

483d7e4948716eaeaca0361590224a60.png

2976bccdece5be90aceffd4454efc68b.png

对Gen-3生成的视频质量也非常认可,并且认可这是文生视频领域最大竞争对手之一。

633376dc264e89aeaf65ca47674eab01.png

仅在6月,就有三款非常强的文生视频模型出现,2024简直就是“视频元年”。

65509883b6ef056ea52913301d47443a.png

在多个超强文生视频模型的围剿下,OpenAI快要失去护城河了,是时候赶紧公测Sora了。

c54cf896f53bce1b2de1a2af5c86a91e.png

也有人认为,Gen-3生成的效果已经超过了Sora,离制作电影级视频非常近了。

a0acea049fafef5b0f7eca59b25bece5.png

今年2月16日,OpenAI发布Sora后全球科技领域为之震惊,极大提升了文生视频赛道的热度,受到了影视行业、资本市场的青睐。

仅仅4个月后,国内快手发布的“可灵”, Luma AI发布的Dream Machine,加上今天的Gen-3 Alpha,在生成视频的质量、动作一致性等完全不输Sora,将模拟世界大模型拉升到一个全新高度。

如果2023年是ChatGPT文本元年,那么2024将是文生视频疯狂内卷的一年,我们期待下半年更多炸裂产品的出现。

--- End ---





欢迎关注微软 智汇AI 官方账号
一手资讯抢先了解





喜欢就点击一下 在看 吧~
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值