前言
2月15号, Openai视频生成模型Sora亮相后,大众的目光立马从谷歌发布的gemini 1.5转移到了sora上升,马斯克在X上发布了GG humans,人类玩球了,而在这之前马斯克多次对Openai发出过AI觉醒警告,那Sora到底是一枚什么样的AI核弹呢?引发如此广泛的关注?以及Sora背后的大致原理又是怎么样的呢?今天我们来简单的探讨一下,希望本文能给大家讲清楚。
Sora生成视频有哪些能力?
Sora并不是第一个文生视频模型,比如Runwa。。。。等都在2023年展示过自己的模型效果,但是它们生成的视频长度都没有超过18s的,大多是在3-4s内。而sora可以实现长达一分钟的一镜到底的视频。那具体Sora有那些能力呢?
第一个能力,文生视频60秒。原来的AI视频工具就5秒、10秒,现在能拉到60秒,已经不短了,在抖音的短视频当中60秒已经算比较长了。
第二个能力,图生视频。给它一张图片,它可以基于这个图片去生成视频。
第三个,视频生视频。你给它一个参考的视频,它可以基于参考视频根据我们的需求去做局部的优化,比如你跟它说按照这个视频给我替换一个演员,替换一下环境,就跟我们做图片的调整图片人物、图片的背景一样。
第四,视频扩展(向前、向后)。你给它开头,它给你生成结尾,但是它现在可以反向生成,你给它结尾,它可以给你生成开头,所以这是一个视频扩展的能力,它可以向前向后去扩展。
第五,视频拼接。你给它多个视频,它可以把这些视频的画面组合在一起,就像我们做这个图片,你把多个图片组合在一张拼图一样。
第六,始终保持3D一致性。大家用过Midjourney这样的工具应该都有感受,同样的提示词,这次生的就跟上一张图片的人物长得不一样,对吧?人物不够稳定,没有办法保证一致性,但是Sora把这个问题解决得很好,在它的视频当中,你可以切换不同角度的镜头,这个人物是不会变的,能够始终保持稳定的一个3D的形象,这是非常重要的一个能力。
第七,理解并模拟“物理交互”。这是技术路径的问题,就是之前的像Pika、Runway这些视频生成工具,它们是画面的扩展逻辑,它只是能够去基于画面去总结一些共性,它没有做到真正的理解。
但是 Sora是理解逻辑,就像官方举的例子,一个汽车撞了一辆坦克,到底是坦克变形还是汽车变形,这个需要我们对于现实世界的物理规则要有理解,现实世界物理规则很显然是汽车变形,但是如果AI它不理解现实世界的物理规律,它是没有办法判断到底是坦克变形还是汽车变形了,你只能是基于一些数据的规律来去告诉它应该是汽车变形,不是坦克变形。因为Sora是从GPT这个大语言模型体系出来的,它是基于对于现实世界的理解去生成对应的视频。
Sora要解决什么核心问题?
你看上面的图片,更好的理解3D一致性,可以明显发现不同帧下女演员的发际线是不同的,就像电影里面的穿帮镜头,
下面我们看一下两段Sora生成的视频。一只白色和橙色的虎斑猫快乐地穿过茂密的花园,好像在追逐什么东西。当它向前慢跑时,它的眼睛睁得大大的,充满快乐,一边走一边扫视着树枝、花朵和树叶。
第二个一位白发梳得整整齐齐的老奶奶站在木制餐桌上的彩色生日蛋糕后面,蛋糕上插着无数蜡烛,脸上的表情是纯粹的喜悦和幸福,眼中闪烁着幸福的光芒,这明显有些假了,我给他取名为吹不熄的蜡烛,这点也提到,Sora是理解这个世界的物理规律,而不是去遵循。虽然生成的画面有瑕疵,但这也足矣惊艳到我。
在LLM模型中,比如我们的chatgpt就是以token为基本单位,任何文本、代码等都可以转化为token,Gpt的主要内容就是预测下一次token。Token 可以被理解为文本中的最小单位。在英文中,一个 token 可以是一个单词,也可以是一个标点符号。在中文中,通常以字或词作为 token。ChatGPT 将输入文本拆分成一个个 token,使模型能够对其进行处理和理解。对模型而言,token就是一种数学的表现形式,可以理解成ID身份证号码。
那在视频领域中呢?也有对应的概念,就是patchs,这是视频的主要的一个单元。一些主流翻译为补丁,个人觉得不是补丁的意思,我觉得应该是翻译成图像块。那什么是图像块呢?为什么要提出这么一个概念呢?
参考论文:
这个概念,源自于20年的一篇论文,由于图片一般是很大的,因此直接进行训练并不现实。因此,在Vision Transformer (ViT)这篇经典的论文里,作者提出了这么一个思路。我把一个大图,拆分成面积大小相同的多个小图,有点盲人摸象的那种意思,每一个小图呢就是一个patch,把一个patch进行序列化,进行flatter成一个一维向量,其二呢,因为我们进行拆分了,那么,每一个patch我们都需要追加一个position信息,告诉他,这是大象的鼻子,在头部,肚皮在中部,不然就会闹出盲人摸象的笑话,最终在合成模型需要的向量。回到这篇论文,他最大的贡献呢?是他首次把transformer这个模型运用到视觉领域,通常是使用在NLP,这一点进步就开启了文本和图像两大领域的融合。但这篇论文的模型也有一个缺点,刚才细心的同学发现,我们把大图裁成多个面积相同的patch,比如图中的3*3的图,那么要求我们的原图 必须是正方形的对吧,你看你电脑,你的电视,手机哪个是正方形呢?这不符合美学的黄金分割嘛,同时,这样的投喂到AI模型的数据,会让AI认为,哦,这世界原来是正方形的。这也就是这个模型的缺点所在,那么怎么处理呢?
参考论文:
2023年第37届神经信息处理系统会议,给出了他们的解决方案,具体实现了不同宽高比和分辨率的内容都可以拆成图像块。而且拆图像块的逻辑可以灵活调整,可大可小,从而适应不同分辨率。而来自于不同图像的图像块内容,可以被打包在同一序列里。这样的话,不同分辨率、宽高比的内容都可以灵活组合成图像块。另外,这个技术还有一个对视频处理特别关键的优势。它可以根据图像相似度,丢掉雷同的图像块,实现更快的训练。而在视频里,本来帧与帧之间就有大量雷同的图像信息。因此,这样一个技术也可以帮助Sora在训练视频时丢弃掉大量雷同的内容,从而大幅降低训练视频的成本。具体论文的实现细节,如果有兴趣可以去精读一下。Sora大概率参考了Navit的实现方式,在组成时空块的时候,通过一种称为“Patch n’ Pack”的技术,允许在训练过程中处理不同分辨率和宽高比的输入
首先,视频,是有多个帧组成,而帧的话也就是多个连续的图片,其次,视频有不同的分辨率,还有不同的宽高比,最后,视频很多的内容都是相似的,这三点让我觉得Sora的底层架构原理是用了Navit
回到主题,Sora要解决的核心问题,那就是大,太大了,你看个一般的4k视频,1分钟,大家猜有多大,【这是iPhone上摄像的数据】,你写过最长的论文,硕士毕业论文,大约3w字多字,加上论文图,8mb一些,这样对比,你就知道对视频进行AI训练的难度了。
那就没有办法了嘛?办法就是这边论文的诞生。这个论文的核心要点呢?大致是这样,我们可以将原图就行一个压缩,怎么压缩呢?所谓取其精华去其糟粕原理,说白了,只关注图的要点,去掉边边角角,然后把这个要点浓缩,提炼成一个潜空间特征,然后对提炼完成,在对潜空间进行各种操作,在生成一个新的图。我举一个可能在这个场合不太恰当的例子,比如,你女朋友,今天带了闺蜜回家,闺蜜的黑丝 和 丰满的身材,被你写入了你的潜空间,而你的女朋友 因为是 你最熟悉不过了,你自动忽略了她今天的穿搭。那第二天你又在反思,在脑海里生成一些 类似的图,比如,她穿旗袍的样子?清淡的素颜等等。。。当然这个例子可能ju得不大好,但这就是这篇文章大致的实现原理。
那么这样一操作呢?AI在训练的时候就大大节省了训练的量。
好了,上面讲的两个问题,一个Navit模型,一个是diffusion扩展模型,sora说,成年人才做选择, 这两种技术,我都要。
都要的话,怎么做呢?首先,先把视频变成一个序列帧(本质就是图片),第二步,通过diffusion model进行潜空间特征提取,变成一个低维的潜空间特征,第三步用Navit将这些特征进一步分成时空图像块。Spacetime patchs。看这个图,7帧的图片中,其实就是一只蝴蝶在海水里飞翔,那么这个潜空间特征,可能是,一只蝴蝶在飞,海水,可能还有彩色的蝴蝶。后面,AI进行抽象画图,比如,他学到了美人鱼的特征,那直接将蝴蝶换成美人鱼,其余不变,有成了创意的AI视频。
Sora如何实现大体量训练?
当然,SoraAI的训练并不是我讲的那么轻松,基于现在官方出给的技术报告,并没有展示出详细的生成细节,比如,视频的内容如何总结?AI怎么知道去描述一个视频?又比如,同时将时间和空间的点准确的训练?当然这一点是有一个bug的,刚才展示的视频,大家也能看到,那只狗 穿模了。而一个AI大模型实现有许许多多的环节,并不是一蹴而就的,这里面是万千AI科研人员的新学,以及不断的迭代试错。我画了一周的时间,整理一些材料,花半个小时可能连皮毛都没讲到。可是,你只要知道你男朋友还惦记着你闺蜜的那个例子,你就知道了其核心的大致的视频压缩技术原理。
当然,大致的过程还是要讲一下的。举个例子,你想生成一个两个人在大厅冲浪的视频,但这个场景的,是不是一点都没有像电影里面的场景感觉,这是Sora可能会调用GPT4 对你的指令进行揣摩,扩写,丰富,是不是更加的丰富,复杂呢?接下来,就是一个标准的diffusion模型的生成过程, 怎么理解这个过程?不知道你们小时候有没有用过那种黑白电视机,上面带天线那种,一开始,屏幕上有许多雪花,也就是Sora从噪点生成初始的图像块,随着你不断的拨动那个天线,渐渐的视频的轮廓渐渐的呈现出来了,一直到越来越清晰,屏幕的雪花点消失。
紧接着,我们根据已有的时空块去预测下一个时空块,这一点跟NLP差不多,用一个token去预测下一个token。Ok,那么前面讲了,男朋友看闺蜜相当于一个编码器,那么这时候有了时空图像块之后,在利用一个解码器,我们叫做VAE的解码器,把时空图像块还原成原始的图像帧。有了帧之后,视频图像也就生成了。
Sora对现实的冲击是什么?
Sora的冲击,可能是对传统的视频制作行业 比如,电影、PR软件类等有威胁,这是一个普遍认识,但我想说的是,谨防诈骗。当然,AI大模型引发AI范式发生变化:此前的共识是专有小模型+小算力,用精妙的算法和更高的模型精度,来减少算力投入;而新的共识是“大力出奇迹”,即预训练大模型+大算力+海量数据。以后的AI竞争,比的是能源消耗和算力。
数据分析方法的扩展:传统统计学侧重于模型的解释性和理论基础,而大模型,特别是深度学习模型,通过其能够处理的数据量和复杂性,拓宽了数据分析的范围。例如,在图像识别、自然语言处理等领域,深度学习模型的应用已经远远超出了传统统计方法的能力。
预测能力的提升:大模型通过利用大量数据进行训练,能够发现数据中复杂的非线性关系,这使得在诸如金融市场预测、疾病预测等领域的预测能力大大提高。例如,使用深度学习模型进行股票市场趋势的预测,能够在一定程度上超越基于传统统计方法的预测模型。
新问题的提出:大模型的发展也引发了新的统计问题和挑战,如模型的可解释性问题、过度拟合的问题以及如何有效评估模型的不确定性。这些问题促进了统计学方法的发展,例如,为了提高模型的可解释性,研究人员开发了新的技术和方法来解释复杂模型的决策过程。
统计教育的变革:随着大模型在各个领域的广泛应用,统计学的教育也在逐步融入更多的机器学习和数据科学的内容。这意味着未来的统计学家需要具备更加广泛的知识体系,包括编程技能、数据处理能力以及对机器学习算法的理解。
统计学与机器学习的融合:大模型的发展促进了统计学与机器学习之间的融合。传统上,这两个领域被视为相对独立的学科,但现在它们之间的界限越来越模糊。许多机器学习算法的核心其实是建立在统计学理论之上的,而统计学也在从机器学习中借鉴算法来解决传统问题。