(注:本文为小报童精选文章,已订阅小报童或加入知识星球「玉树芝兰」用户请勿重复付费)
狂热
其实无论是文本、图像、声音和视频生成,我之前都给你介绍了不少。
如果你一直在看我的视频教程,估计也亲眼见证了 Runway ML Gen-2 在几个月之内的突飞猛进。
只不过,不管是 Runway ML Gen-2 ,还是后来大火的 Pika ,能生成视频的时间长度按秒来计算,基本上都在个位数。而且,视频效果虽然越来越细腻,但是真实感上还是有些缺失的。
但 OpenAI 的 Sora 一出手,就把文本生成视频的长度,做到了 60 秒,而且这中间可能出现大量的场景切换、远近镜头交替和各种人物的组合。
所以你就不难理解 2024 年 2 月,OpenAI 演示了 Sora 这款文字生成视频产品,立即引发了广泛反响与讨论。这热度,居然让 Sora 还没有正式进入灰度测试阶段,课程就已经出来了。
不仅如此,更催生了中美 AI 两巨头的讨论。
在我的公众号后台,读者也迫不及待希望我讲一讲 Sora 。
但其实,我一直对此表现很克制。原因很简单,我自己没有上手玩儿过啊!😂
目前 Sora 还只能在 OpenAI 内部和红队成员内使用。当然了,你可以申请加入红队,能不能批准那就是人家的事儿了。
另一种间接使用的方式,则是在 OpenAI 宣传 Sora 的帖子下面留言,给出你的提示词。如果你的提示词被选中,人家可能给你做一个出来。
有这么好的东西,宣传出来又不让大家敞开玩儿,自然会有人意见很大。于是 OpenAI 的昵称 “ClosedAI” 又一次被提了出来。
上一次,人们对 OpenAI 这么愤怒,是因为他开发了 GPT-2 之后,不肯开放大家试用。
我一开始对 OpenAI 的这种「饥饿营销」也颇不以为然。不过这几天在和不少朋友讨论交流后,我觉得还是有必要跟你聊聊,OpenAI 这么做的道理。
聊这事儿之前,咱们先来了解一下 Sora 的特点和背后的技术原理。
技术
Sora 使用的是 Diffusion Transformer 技术,把之前的两种 AIGC 模型技术(Diffusion 与 Transformer)结合了起来。其中 Diffusion 用于绘图,之前常见的 Stable Diffusion, Midjourney 和 DALLE 3 等,都属于这个范畴;而 Transformer 则是 ChatGPT, GPT-4, Gemini 等一系列大语言模型的基础架构。Sora 将二者结合起来,就使得生成 60 秒 1080P 视频,变成只需要一句提示词的事儿。
这里咱们用最简单的概括,来说说 Sora 的工作原理。从 Diffusion 来说,是用于「给我一堆随机噪点,怎么能让它根据提示词随我心意变化,逐渐清晰成图像的」,也就是它解决空间问题;而 Transformer 则用于解决时间问题,在 ChatGPT 等大语言模型中,它处理的是「前面这句话说完,后面该接什么」的问题。
视频比图像或者文本更复杂,是因为它是个时-空综合问题,所以你需要同时解决二者。