面对闭源 Sora，国产视频模型要怎么走 OpenAI 的“西游路”？

AI科技大本营

于 2024-07-26 17:09:53 发布

阅读量197

点赞数 2

本文链接：https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/140729158

版权

在世界模型的路径上，跨模态是非常重要的事情。

文 | 王启隆

出品丨AI 科技大本营（ID：rgznai100）

本文为 CSDN 编辑整理，未经授权，禁止转载。

7 月 26 日上午，智谱 AI 在北京举办开放日（OpenDay），正式发布视频生成大模型产品「清影」（Ying）。目前，清影已经上线“智谱清言” App，人人可用，大家都能体验。

面向广大的开发者群体，智谱也开放了清影背后的视频生成模型 CogVideoX 的 API，价格为 0.5 元/次。开发者可以通过调用 API 的方式，体验和使用文生视频以及图生视频的模型能力，这在国内也尚属首例。

智谱 AI 大模型开放平台：https://bigmodel.cn/

清影具备文本生成视频和图片生成视频两大功能，仅需 30 秒时间就能输出一个时长为 6 秒，清晰度为 1440x960 的高精度视频。据智谱 CEO 张鹏透露，他们目前还在研究下一步的「用视频生成视频」。

别看只有 6 秒，照样可以玩出花来。下面这个相当燃的短片《溯源：从人类第一颗火种说起》，就是完全由清影生成的画面：

是不是很像电影 CG？

年初 CSDN 于智谱 DevDay 专访张鹏时，他将这场 AI 革命视为“认知上的革命”，只有在认知上做根本的转变，才能跟上这个时代。

今年二月，闭源的 OpenAI 推出视频生成模型 Sora，技术细节毫无头绪，相当于给全世界的 AI 厂商设置了一道“闭卷考试”。比方说，清影的底座模型使用了前代 CogVideo 模型的升级版 —— CogVideoX，推理速度提升了六倍。CogVideo 的算法设计参考了 Sora 的 DiT 架构，这也逐渐成为了视频生成模型厂商的共识。但张鹏表示，由于 Sora 技术细节上的公开和不透明，事实上有很多地方需要自己摸索。

OpenAI 已经取到了“经”，而路，却被隐藏了起来，需要重新走遍“九九八十一难”。

无论是开源社区还是闭源公司，无论国内还是国外，这几个月的专业开发者 —— 快手可灵、Luma AI 的 Dream Machine、Runway 的 Gen-3 Alpha、开源项目 Open-Sora、谷歌 DeepMind 的 V2A，都在从不同角度尝试复现 Sora 的奇迹，试图改变自己的“认知”，以跟上 OpenAI 超前的节奏。

Sora 最为颠覆认知的地方，首先便是其生成视频内容的连贯性。作为这道考试最大的难点之一，智谱 AI 交出的答卷是他们自研的高效三维变分自编码器结构（3D VAE），将原视频空间压缩至 2% 大小，配合 3D RoPE 位置编码模块，更有利于在时间维度上捕捉帧间关系，建立起视频中的长程依赖。

在清影演示的一系列视频中，下面这类带有运动、驾驶性质的视频便很能展现连贯性：

Sora 给出的“第二难”，就是数据。

倒不如说，OpenAI 可能自己都没解决这个问题，因为在我们整理的数篇关于 OpenAI CTO Mira Murati 的采访中，每逢问起 Sora 何时发布，她便会以“安全性”或“数据”作为理由。在 Mira 的第一次关于 Sora 的采访时，还诞生了 Youtube CEO 亲自下场警告 OpenAI 使用视频数据的“名场面”。

张鹏也表示，做视频生成最需要的就是数据。文字数据可能积累了很多年，而视频数据的积累，甚至于流媒体的兴起都是最近才开始的事情。而且，除了有高质量的视频以外，还需要对应的字幕、文字、描述等等，并进行对于数据本身的清洗、挑选、筛选……张鹏强调，模型需要的视频质量其实很高，不是很多人想象中的“从短视频平台随便抓取一个视频就能拿来用”。

在采访中，张鹏还进一步延伸了自己对未来模型训练趋势的见解：视觉信号在人类沟通中的冲击力无可替代，在未来，多模态的信号融合将是趋势，而视觉将成为主导。

图生视频的一个示例 —— 梵高的《星空》

此外，还有国内 AI 厂商无法避开的话题 —— 算力。

目前，智谱给出付费方案相当独特，他们没有采取福利值或代币制度限额放出生成次数，而是让所有用户在首发测试期间均可免费使用。

那付费可以做什么呢？清影的方案是，付费 5 元，解锁一天（24 小时）的高速通道权益，付费 199 元，解锁一年的付费高速通道权益。这么做视频生成算力成本想必不会低，听起来就非常“烧显卡”。

张鹏一如既往地保持智谱的“质朴”风格，他坦诚地表示，目前我们和 OpenAI Sora 这样的世界顶尖水平还有差距，但这条路仍然需要走下去，且需要用自己的方式不断往前追赶，并在追求技术高度的同时，也同步追求技术的可普及性和成本，最终实现技术的“人人可用”。

至于成本多少？那是等大家用完之后，再去统计的事情。现在需要做的，便是放出来给大家使用，看一看大家的反馈。

据说，清影主要擅长皮克斯动画风格

但这种成熟的黑白电影风，也不在话下

既然是认知革命，那就不得不谈 OpenAI 在发布 Sora 时提到的概念，即 Sora 是“模拟世界的视频生成模型”（Video generation models as world simulators），这股潮流一度带火了世界模型（World Model）这个词，直至今天也极具争议。

智谱一直被称为「中国的 OpenAI」，全面对标 OpenAI 的产品矩阵，甚至做到了“一个不多，一个不少”。本次清影的发布填补了“中国版 Sora”这一部分的空缺，下一步便是更加“天马行空”的多模态矩阵。

当前，人工智能行业对多模态模型的探索还处于初级的阶段。CSDN 为此询问张鹏，对于 AGI 前路上必经的这道难关 —— 世界模型，智谱目前给出的思考是什么？

张鹏回答：“OpenAI 对世界模型的定义，是通过视频学习生成的能力，去理解物理世界的基础。目前关于世界模型，还有许多仍未定论的地方。而我们的观点和 OpenAI 比较相近。”

“对于人类的大脑来说（或是说人类对世界的认知），除了语言以外，视觉、听觉、嗅觉等各种各样的感官是综合在一起的。人类学习事物的效率没有计算机那么快，但是人类的智能却比现在的 AI 高，这正是因为人类大脑的学习过程远比计算机更复杂，大脑内不同模态之间信号的互相验证和交叉，知识的渗透，可能导致了学习效率更高 —— 当然，也可能有其他的原因，而这还需要研究很多的问题。”

“最终，我们跟 OpenAI 有个观点一致，即所谓世界模型的路径上，跨模态是非常重要的事情，可能还有其他的事情需要做，一步一步来吧。”

从开发者的角度，我们还提出了一道问题。

时值 Llama 3.1 发布，我们会发现开发者已经对开源社区推出的各种文本大模型“了如指掌”，许多热门开源模型（如前段时间的谷歌 Gemma-2）都能在四天左右就微调出一个面向中文社区的优化版本。

随着“文本大模型”的热潮转向“视频大模型”乃至“多模态模型”，开发者能从哪些角度参与到这些模型的建设，程序员又会在开源多模态模型开发中会扮演什么角色？

张鹏认为，文本模型相对于视频多模态模型，先“跑”了一段时间，形成了成熟的模式，因此未来的视频或者多模态模型，也会往同样的方向走下去。

“开发者社区里，有很多人在做技术建设、风格化等一系列事情，这些事情都是开源社区中充满热情的一些人做的事情，慢慢会积累成一定的套路，同样的方法论都会迁移到多模态的模型上。”

“当大家发现有比较好的多模态的开源模型以后，大家也会尝试把它训练成能使用中文或是能生成更多风格、更专业的动画，这些都有可能，且这是根据大家的喜好，以及开发者社区里的多样性驱动的事情。所以，我比较看好开源社区会给大家带来更多的可能性。”

这条“西行之路”，既是国产 AI 模型厂商重走 OpenAI 的多模态探索之路，也是视频模型再度重走文本模型的发展之路。未来的视频模型领域，是否还会再度上演百模大战？是否还会重启“开源”“闭源”之争？我们目前尚未知晓，唯独知道的是，路还很长，西行路漫漫。

“西行”路漫漫

先让为僧带上墨镜

关于 LINUX 的资料浩如烟海，学习 LINUX 的途径也有很多，如何才能在比较短的时间里获得一个比较大的提升呢？《LINUX 平台高级调试与优化》将与各位 LINUX 爱好者共同探索这个问题的最佳答案。

本着生动有趣、理论与实践密切结合的原则，本研习班独辟蹊径，使用调试之剑披荆斩棘，带你闯荡纷繁复杂的 LINUX 世界。以格物精神，钻研代码，深挖 LINUX 系统的核心机制，这一讲求得一理，下一讲再求得一理，步步推进。整个研习班，旨在实现三大目标：

（一）深入理解 LINUX 操作系统的基础设施和核心机制；

（二）学习开发 LINUX 程序（内核模块和应用程序）的工具和方法；

（三）学习 LINUX 平台上的调试工具和调试典型问题的方法。

本研习班由《软件调试》、《软件简史》和《格蠹汇编》的作者张银奎主讲。

AI科技大本营

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
面对闭源 Sora，国产视频模型要怎么走 OpenAI 的“西游路”？

在世界模型的路径上，跨模态是非常重要的事情。文 | 王启隆出品丨AI 科技大本营（ID：rgznai100）本文为 CSDN 编辑整理，未经授权，禁止转载。7 月 26 日上午，智谱 AI在北京举办开放日（OpenDay），正式发布视频生成大模型产品「清影」（Ying）。目前，清影已经上线“智谱清言” App，人人可用，大家都能体验。面向广大的开发者群体，智谱也开放了清影背后的视频生成模型 Co...
复制链接

扫一扫