面对闭源 Sora,国产视频模型要怎么走 OpenAI 的“西游路”?

8ea780705c3fe81e83f85e3d8c382878.gif

在世界模型的路径上,跨模态是非常重要的事情。

文 | 王启隆

出品丨AI 科技大本营(ID:rgznai100)

本文为 CSDN 编辑整理,未经授权,禁止转载。

7 月 26 日上午,智谱 AI 在北京举办开放日(OpenDay),正式发布视频生成大模型产品「清影」(Ying)。目前,清影已经上线“智谱清言” App,人人可用,大家都能体验。

面向广大的开发者群体,智谱也开放了清影背后的视频生成模型 CogVideoX 的 API,价格为 0.5 元/次。开发者可以通过调用 API 的方式,体验和使用文生视频以及图生视频的模型能力,这在国内也尚属首例。

智谱 AI 大模型开放平台:https://bigmodel.cn/

清影具备文本生成视频图片生成视频两大功能,仅需 30 秒时间就能输出一个时长为 6 秒,清晰度为 1440x960 的高精度视频。据智谱 CEO 张鹏透露,他们目前还在研究下一步的「用视频生成视频」。

别看只有 6 秒,照样可以玩出花来。下面这个相当燃的短片《溯源:从人类第一颗火种说起》,就是完全由清影生成的画面:

是不是很像电影 CG?

年初 CSDN 于智谱 DevDay 专访张鹏时,他将这场 AI 革命视为“认知上的革命”,只有在认知上做根本的转变,才能跟上这个时代。

今年二月,闭源的 OpenAI 推出视频生成模型 Sora,技术细节毫无头绪,相当于给全世界的 AI 厂商设置了一道“闭卷考试”。比方说,清影的底座模型使用了前代 CogVideo 模型的升级版 —— CogVideoX,推理速度提升了六倍。CogVideo 的算法设计参考了 Sora 的 DiT 架构,这也逐渐成为了视频生成模型厂商的共识。但张鹏表示,由于 Sora 技术细节上的公开和不透明,事实上有很多地方需要自己摸索。

OpenAI 已经取到了“经”,而路,却被隐藏了起来,需要重新走遍“九九八十一难”。

无论是开源社区还是闭源公司,无论国内还是国外,这几个月的专业开发者 —— 快手可灵、Luma AI 的 Dream Machine、Runway 的 Gen-3 Alpha、开源项目 Open-Sora、谷歌 DeepMind 的 V2A,都在从不同角度尝试复现 Sora 的奇迹,试图改变自己的“认知”,以跟上 OpenAI 超前的节奏。

Sora 最为颠覆认知的地方,首先便是其生成视频内容的连贯性。作为这道考试最大的难点之一,智谱 AI 交出的答卷是他们自研的高效三维变分自编码器结构(3D VAE),将原视频空间压缩至 2% 大小,配合 3D RoPE 位置编码模块,更有利于在时间维度上捕捉帧间关系,建立起视频中的长程依赖。

在清影演示的一系列视频中,下面这类带有运动、驾驶性质的视频便很能展现连贯性:

Sora 给出的“第二难”,就是数据。

倒不如说,OpenAI 可能自己都没解决这个问题,因为在我们整理的数篇关于 OpenAI CTO Mira Murati 的采访中,每逢问起 Sora 何时发布,她便会以“安全性”或“数据”作为理由。在 Mira 的第一次关于 Sora 的采访时,还诞生了 Youtube CEO 亲自下场警告 OpenAI 使用视频数据的“名场面”。

张鹏也表示,做视频生成最需要的就是数据。文字数据可能积累了很多年,而视频数据的积累,甚至于流媒体的兴起都是最近才开始的事情。而且,除了有高质量的视频以外,还需要对应的字幕、文字、描述等等,并进行对于数据本身的清洗、挑选、筛选……张鹏强调,模型需要的视频质量其实很高,不是很多人想象中的“从短视频平台随便抓取一个视频就能拿来用”。

在采访中,张鹏还进一步延伸了自己对未来模型训练趋势的见解:视觉信号在人类沟通中的冲击力无可替代,在未来,多模态的信号融合将是趋势,而视觉将成为主导

图生视频的一个示例  —— 梵高的《星空》

此外,还有国内 AI 厂商无法避开的话题 —— 算力

目前,智谱给出付费方案相当独特,他们没有采取福利值或代币制度限额放出生成次数,而是让所有用户在首发测试期间均可免费使用。

那付费可以做什么呢?清影的方案是,付费 5 元,解锁一天(24 小时)的高速通道权益,付费 199 元,解锁一年的付费高速通道权益。这么做视频生成算力成本想必不会低,听起来就非常“烧显卡”。

张鹏一如既往地保持智谱的“质朴”风格,他坦诚地表示,目前我们和 OpenAI Sora 这样的世界顶尖水平还有差距,但这条路仍然需要走下去,且需要用自己的方式不断往前追赶,并在追求技术高度的同时,也同步追求技术的可普及性和成本,最终实现技术的“人人可用”

至于成本多少?那是等大家用完之后,再去统计的事情。现在需要做的,便是放出来给大家使用,看一看大家的反馈。

据说,清影主要擅长皮克斯动画风格

但这种成熟的黑白电影风,也不在话下

既然是认知革命,那就不得不谈 OpenAI 在发布 Sora 时提到的概念,即 Sora 是“模拟世界的视频生成模型”(Video generation models as world simulators),这股潮流一度带火了世界模型(World Model)这个词,直至今天也极具争议。

智谱一直被称为「中国的 OpenAI」,全面对标 OpenAI 的产品矩阵,甚至做到了“一个不多,一个不少”。本次清影的发布填补了“中国版 Sora”这一部分的空缺,下一步便是更加“天马行空”的多模态矩阵。

当前,人工智能行业对多模态模型的探索还处于初级的阶段。CSDN 为此询问张鹏,对于 AGI 前路上必经的这道难关 —— 世界模型,智谱目前给出的思考是什么?

张鹏回答:“OpenAI 对世界模型的定义,是通过视频学习生成的能力,去理解物理世界的基础。目前关于世界模型,还有许多仍未定论的地方。而我们的观点和 OpenAI 比较相近。”

“对于人类的大脑来说(或是说人类对世界的认知),除了语言以外,视觉、听觉、嗅觉等各种各样的感官是综合在一起的。人类学习事物的效率没有计算机那么快,但是人类的智能却比现在的 AI 高,这正是因为人类大脑的学习过程远比计算机更复杂,大脑内不同模态之间信号的互相验证和交叉,知识的渗透,可能导致了学习效率更高 —— 当然,也可能有其他的原因,而这还需要研究很多的问题。”

“最终,我们跟 OpenAI 有个观点一致,即所谓世界模型的路径上,跨模态是非常重要的事情,可能还有其他的事情需要做,一步一步来吧。”

从开发者的角度,我们还提出了一道问题。

时值 Llama 3.1 发布,我们会发现开发者已经对开源社区推出的各种文本大模型“了如指掌”,许多热门开源模型(如前段时间的谷歌 Gemma-2)都能在四天左右就微调出一个面向中文社区的优化版本。

随着“文本大模型”的热潮转向“视频大模型”乃至“多模态模型”,开发者能从哪些角度参与到这些模型的建设,程序员又会在开源多模态模型开发中会扮演什么角色?

张鹏认为,文本模型相对于视频多模态模型,先“跑”了一段时间,形成了成熟的模式,因此未来的视频或者多模态模型,也会往同样的方向走下去。

“开发者社区里,有很多人在做技术建设、风格化等一系列事情,这些事情都是开源社区中充满热情的一些人做的事情,慢慢会积累成一定的套路,同样的方法论都会迁移到多模态的模型上。”

“当大家发现有比较好的多模态的开源模型以后,大家也会尝试把它训练成能使用中文或是能生成更多风格、更专业的动画,这些都有可能,且这是根据大家的喜好,以及开发者社区里的多样性驱动的事情。所以,我比较看好开源社区会给大家带来更多的可能性。”

这条“西行之路”,既是国产 AI 模型厂商重走 OpenAI 的多模态探索之路,也是视频模型再度重走文本模型的发展之路。未来的视频模型领域,是否还会再度上演百模大战?是否还会重启“开源”“闭源”之争?我们目前尚未知晓,唯独知道的是,路还很长,西行路漫漫。

“西行”路漫漫

先让为僧带上墨镜

1161c3c6871a987bdece1a537df6db79.gif

关于 LINUX 的资料浩如烟海,学习 LINUX 的途径也有很多,如何才能在比较短的时间里获得一个比较大的提升呢?《LINUX 平台高级调试与优化》将与各位 LINUX 爱好者共同探索这个问题的最佳答案。

本着生动有趣、理论与实践密切结合的原则,本研习班独辟蹊径,使用调试之剑披荆斩棘,带你闯荡纷繁复杂的 LINUX 世界。以格物精神,钻研代码,深挖 LINUX 系统的核心机制,这一讲求得一理,下一讲再求得一理,步步推进。整个研习班,旨在实现三大目标:

(一)深入理解 LINUX 操作系统的基础设施和核心机制;

(二)学习开发 LINUX 程序(内核模块和应用程序)的工具和方法;

(三)学习 LINUX 平台上的调试工具和调试典型问题的方法。

本研习班由《软件调试》、《软件简史》和《格蠹汇编》的作者张银奎主讲。

57ae6cfdf2d958b24931051484812c9f.png

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值