谷歌发布新大语言模型:零样本生成10秒视频达SOTA!网友:压力给到Runway/Pika...

明敏 发自 凹非寺
量子位 | 公众号 QbitAI

你敢信?大熊猫都会打牌了!

d44e1f3d5a7b5c27b93db04cd3d35827.gif

看这毛茸茸的脑袋、抓牌的动作……

而这其实都是AI生成的,还是零样本那种。

这就是谷歌最新大语言模型VideoPoet

它不仅没有用视频领域常用的扩散模型,还零样本实现了SOTA。相较于此前一些模型,画面更加稳定、动作更加逼真,清晰度也直线up。

e539f5353a04b7f2ea61d2c431eb0b19.gif

和Bard再合作一下,轻松搞定1分钟长的视频小片,从脚本到画面全部不用人类插手。

d67227aa474b934f5ad43239cb2de13a.gif

这效果,让网友们直呼:视频生成进化速度也太快了吧。

c7ae9967fd76a76ad09e85bfe4952df6.png

不少人都表示想玩!

52dbfcc17f9e43289388d56769fb3265.png

有人还说,VideoPoet效果这么好,看来Runway和Pika要加速了!

a03f775d7b0461c54d7191d72c931c79.png

画面逼真动作稳定

具体来看VideoPoet的能力非常全面。包括:

  • 文本-视频

  • 图像-视频

  • 视频编辑

  • 风格化处理

  • 画面补充

文本到视频任务,视频输出长度可调整,而且可以基于文本内容应用一系列动作和风格。

82cacf6b4239b3ef422dd7e8924f9e00.gif

图像到视频任务,则能让静态图片动起来。比如一些世界名画和照片,都可生成视频。

1c6c5562fd57308edd5a7c272b0b3b26.gif

同时也能调整视频风格,需要额外输入一些文本,然后模型会预测视频的光照和深度信息。

比如输入“铁狮子在熔炉的火光中咆哮”,原本无厘头的太阳花狮子就变得凶猛威严起来。

ef7323e71cd7180d35bb621e3e796a63.gif

当然也能进行视频编辑,比如让视频中的机器人随意运动、背景中加上烟雾等,都是输入文字指令即可实现。

bcd4c2c3b73108715e83d964b4bb4a9b.gif

或者是输入图像,然后修改它的动作。让蒙娜丽莎转动身体、打哈欠。

d901fe66a624ec1a7e08d45f94d73ea7.gif

以及可调整镜头动作。基本的缩放、弧线、航拍镜头都可搞定。

22c8c7fadb0ddc0a0399c614ce7d8e22.gif

如果想让扩充视频画面、增加视频元素,VideoPoet也能实现。

026c8cd7aead58c56792f2ee25c9306b.gif

值得一提的是,VideoPoet还可以根据视频配乐

这也是让不少网友感到惊讶的地方。

e6048b77ccf5cc7804c851976d903942.png

比如先让VideoPoet生成一段小熊打架子鼓的视频,然后不给它任何文本提示,VideoPoet根据画面内容自己生成了音频。

如果想要生成更长的视频,可以通过输入视频的最后一秒画面让VideoPoet预测下一段视频,反复多次即可实现。

如下案例时长约为10秒。

7be0f1801c52ece124d5366fb0f9e666.gif

用LLM零样本生成视频

不仅是生成效果好,VideoPoet还有一个优势在于,以LLM为基础,它能更方便利用现有大模型进行改进。

比如VideoPoet就使用了T5的编码器。

56cfa0ed31410124214087d57a64898b.png

不过由于大语言模型使用离散token,使得它生成视频具有一定挑战性。

与自然语言不同,人类对视觉世界尚未演化出最佳的词汇表达。

通过视频/音频tokenizer可以来克服这一问题。

它们能将视频和音频编码为离散token,也可将其转换为原始表示。

VideoPoet正是基于这一原理实现。

它利用MAGVIT V2来搞定视频图像表示,SoundStream搞定音频表示。

前者是谷歌CMU团队在今年10月提出的方法,该方法实现了语言模型首次在ImageNet基准上击败扩散模型。

后者是一个端到端神经音频解码器。

具体来看VideoPoet的框架。它支持文本、视觉、音频输入,分别可利用t5、MAGVIT V2、SoundStream的编码器。

然后再自回归生成输出。

c40c3530622d8f07e9ab65b35de4f1ad.png

实验结果方面,在提示词与生成结果的吻合度方面,VideoPoet超过多个扩散模型。

9a12649503126a42043a93703db42955.png

生成动作方面的优势更加明显。

ef56b0bf4b902c0fa8ff60cb316ffc51.png

这项工作由谷歌研究带来,作者是两位软件工程师Dan Kondratyuk和David Ross。

据Dan透露,VideoPoet的论文也会马上上线。

参考链接:
[1]https://sites.research.google/videopoet/
[2]https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

—  —

点这里👇关注我,记得标星哦~

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值