清华系Sora全球上线!不用排队,重点支持二次元!

衡宇 发自 凹非寺
来源 | 量子位

七月份的尾巴,又有国产AI视频开放给大家免费玩了!

Vidu,来自清华系多模态大模型公司生数科技,清华朱军带队的那家。

今天起,Vidu全面开放文/图生视频两项功能,生成成果时长可自由选择4s/8s,分辨率最高可达1080P。

官方号称“实现业界最快实测推理速度”,生成一段4s视频片段只需30s。

画个重点,「全面开放」的意思是,大家不用排队,注册即可获赠每月80积分(更多积分需要付费订阅,但目前也够玩了)。

184261468b2746ad7654c4da65e79ff1.gif

看手,好像效果还行哈

其实在今年4月,生数的Vidu就已经对外亮相过,当时支持一键生成16秒视频。

这次全量开放,不同点也是亮点不在时长上,而是新增了角色一致性、动漫风格、文字与特效画面生成功能

665afc08be8708faa68f2c6f81691800.gif

狠狠叹一口气,说句实话,有点又惊喜又麻木的。

这段时间,从快手可灵,到爱诗科技,再到智谱清影……AI视频频繁对公众开放,被最新消息和不同效果连番轰炸,有点麻了。

靠文字描述,真的已经很难感知到国产AI视频的水平到了什么地步。

还是得上视频,看效果。

Vidu趣味向视频效果展示

先看看官方和网友们,都用Vidu搞了些什么有趣的东西。

(这里更多是图生视频展示)

输入一张情侣对视图:

424946260bf70d67234c66a1adfbaf4f.png

输入prompt:The two people in the photo are looking at each other(小情侣一眼万年)。

Vidu给咱来一个古早味台湾偶像剧的经典运镜。

2e469e12c7449d77d2feff458ea8e9e0.gif

输入大家都很熟悉的文物“马踏飞燕”:

8e0dd866bab536a83c0500e46c719f14.png

Vidu让它分分钟从博物馆展柜里逃跑了:

728bee4f0c3a59f33371ca5eed137125.gif

意难平CP,直接合照变单人秀——

输入双J的这张:

fc795e6129e3ca242af6ed158760e85e.png

你将得到:

876306d5afcc3dfc420b812fcfaeb8b3.gif

最后,生数科技派出了自家1996年出生的CTO鲍凡:

a88bc27c263e9958498b9742b07a1973.png

输入prompt:一个帅哥在变身成为奥特曼,画出正在变身的过程,从一个普通人变成完整的奥特曼。

就能得到:

9fbcbfcfae017a77f723af4d7bf4ad1d.gif

两项新功能:角色一致性&动漫风格

以此次开放的“文生视频”和“图生视频”两项基础功能打底,Vidu此次有两个亮点功能。

  • 角色一致性

  • 动漫风格

角色一致性(Charactor To Video)

在“图生视频”板块中,Vidu上新了角色一致性(Charactor To Video)。

目前,上传图片进行图生视频时,既可以把输入图作为视频片段首帧,也可以仅让生成结果参考输入图里的角色。

前者实现基于首帧画面的连续生成,是最常见的图生视频功能。

后者的实现则基于角色一致性,详细地说,就是用户可上传像图或者自定义的角色图,然后指定该角色在任意场景中做出任意动作。

官方demo是让AI生成领域的老演员——马斯克出个场。

输入图,并选择“参考人物角色”

5fc9cd647768b91cfd4f6d4fedf54251.png

如果输入prompt:Elon Musk is wearing a spacesuit in the spacecraft(老马在宇宙飞船上穿着宇航服)。

则生成:

如果输入prompt:Elon Musk wearing Iron Man armor, with a city night scene in the background(老马身穿钢铁侠盔甲,背景是城市夜景)。

则生成:

角色一致性,既是为了确保角色形象、面部表情和动作在不同场景中的连贯性,更是为了简化视频制作流程,用户不用为每个场景单独设计和调整角色形象。

——这也是近期开放的AI视频工具的一大趋势

动漫风格

目前国内外开放的AI视频工具,更多是在写实风上发力;Vidu除了能够生成写实风格,还聚焦了动漫风格视频片段的生成。

也算是生数科技在Vidu上的小巧思吧。

不过,支持动漫风格意味着有几个难点:

  • 保持风格一致性:始终呈现动漫风

  • 保持画面稳定性:避免画面跳画、崩坏or动态幅度太小

量子位上手浅试了一下。

喂它一张AI生成的动漫风猫娘:

c6c68a530a7209056cfa80c500d8a28b.png

把它作为视频片段的起始帧,然后输入了很小学生作文式的简单提示词(鉴于官方给的prompt是英文,我们在这特意尝试了中文提示词)。

可以看到,目前生成一个视频片段需要消耗4点积分。

8f9840f240a5b012a09fee3ce0721534.png

生成效果时长4s,猫娘确实嘴角弯弯,但没眯眼睛。

片段还给加了个日语字幕,虽然似乎好像是乱码=。=

目前,生数没有放出此次开放Vidu关于动漫风格的更多技术资料,咱们就看看官方给的demo吧。

原图1,我愿称之为白衣蓝发的花丛中少年(?):

ce8fa48522cd68db97f7d0a60fc236de.png

Vidu图生视频效果,时长3s:

原图2,可爱双马尾粉色lolita裙美少女:

854e846e46cb90dddea96a76eef991cd.png

Vidu图生视频效果,时长3s:

还有啥亮点?

除了上面描述的两个功能,开放给大家敞开玩的Vidu,比起四月犹抱琵琶半遮面的版本,还有哪些提升?

可以从技术和效果两方面来感知。

技术方面,Vidu在推理速度上有显著提升

Vidu的生成4s视频片段的时间,目前控制在30s。这个速度比业内最快水平的Gen-3(1分钟)还要再快一倍。

对用户来说,实测推理速度是诸多使用体验中,最能直观感受到的。

更短的处理时间不仅提升使用感,还意味着能在同样的时间段内处理更多的用户需求。

关于“30s”这一点,大家可以直接去Vidu官网感受一下,看看生成时长是不是真的控制得这么好,毕竟生数说,欢迎大家掐表实测(手动狗头)。

效果方面,Vidu提出了自己“理解力高、画面更美、动幅更大”

目前,业界对类Sora视频模型的评价主要围绕三大核心维度:

语义理解准确性、画面美观性、主体动态的一致性。

Vidu也在这三方面上尽力做平衡。

首先,是强语义理解能力,能够理解词汇、镜头语言等。

Vidu能够准确理解和生成提示词中的词汇,比如字母、数字等,并且能够生成文字特效。

aba3580b23f7ad62258fc84d7a57eccb.gif

对于第一人称、延时摄影等镜头语言,Vidu也能准确理解和表达。

用户只需细化提示词,即可大幅提升视频的可控性。

尤其在涉及复杂场景的视频中,Vidu能够将运动主体与场景做较好分离。

譬如将前后景别分离开,控制画面中非重点物体的动态较少,画面主体的动态做较好的生成,有效提升画面的真实感。

其次,是大动态幅度大,对指定动作理解准确,主体运动幅度大。

大幅度、精准的动作有助于更好地表现视频情节和人物情绪。

动作幅度一旦变大,画面容易崩坏,因此一些模型为保证流畅性,会牺牲动幅。

来看Vidu让小女孩给你比心哦:

7c1c98008e39ef0a211fb6b8b6f1ebfe.gif

再者是好的画面美观性好,生数放话Vidu有“电影级质感和影视级特效生成”。

具体来说,Vidu在构图、叙事、光影等方面追求画面的高质感。

可以对应生成科幻、悬疑、西部或浪漫等类型的电影风格片段。

来看看西部电影风:

此外,Vidu还能生成影视级特效画面。

如弥漫的烟雾、炫目的炫光效果等,甚至是细致入微的皮肤纹理、 材质特效等后期CG特效。

One More Thing

OKK,看了这么多视频,相信大家对生数Vidu的效果和速度有一个大概的感知了。

今天上午十点,Vidu已经全面开放,大家只需要去注册一下就能使用。

——The  End——

2ac0e1306e0009b1b8f78286898e409d.gif

分享

收藏

点赞

在看

58a1c725698d5bd3da893dfa57022976.gif

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值