AIGC专题：Sora算力倍增，国产架构+生态崛起

最新推荐文章于 2024-05-13 09:23:49 发布

人工智能学派

最新推荐文章于 2024-05-13 09:23:49 发布

阅读量566

点赞数 12

文章标签： AIGC

本文链接：https://blog.csdn.net/GPT20236688/article/details/136207787

版权

今天分享的是AIGC系列深度研究报告：《AIGC专题：Sora算力倍增，国产架构+生态崛起》。

（报告出品方：华西证券股份有限公司）

报告共计：48页

来源：人工智能学派

大语言模型、文生图、文生视频加速演进

 大语言模型(LLM)：LLM是一种利用机器学习技术来理解和生成人类语言的人工智能模型。LLM 使用基于神经网络的模型，通常运用自然语言处理(NLP)技术来处理和计算其输出。我们判断GPT3、GPT3.5皆为大语言模型，GPT在此基础上引入了多模态。

 文生图：与大预言模型不同，多模态可以根据文字描述创建原创、逼真的图像和艺术作品。它可以组合概念、属性和样式，我们认为文生图功能对于传统图型生成工具具有颠覆性。

 文生视频：多模态人工智能技术实现了从AI文生图到AI文生视频的跨越，实为解放生产力的双手，我们认为其功能颠覆摄影、传媒、电影制作等行业，例如Gen2。

 SORA推开新世界的大门，文生视频加速演进：OpenAI 2月16日凌晨发布了文生视频大模型Sora，它能够仅仅根据提示词，生成60s的连贯视频，“碾压”了行业目前大概只有平均“4s”的视频生成长度。

大语言模型、文生图、文生视频加速演进

 Transformer架构是AI向生成式跨越的重要一步：是一种采用自注意力机制的深度学习模型，这一机制可以按输入数据各部分重要性的不同而分配不同的权重。我们判断其广泛应用于大语言模型中(LLM)，例如ChatGPT系列中。Transformer模型旨在处理自然语言等顺序输入数据，可应用于翻译、文本摘要等任务。注意力机制可以为输入序列中的任意位置提供上下文。

 文生图的基础采用的是Stable Diffusion架构：Stable Diffusion架构是一种自回归模型，基于扩散模型，因此训练和推理代价都很高。它主要用于生成以文本描述为条件的详细图像，但它也可以应用于其他任务，例如修复、外绘以及在文本提示引导下生成图像到图像的翻译。首先需要训练好一个自编码模型，然后利用编码器进行压缩，然后在潜在表示空间上做diffusion操作，最后再用解码器恢复到原始像素空间即可，整个流程类比物理学中的“扩散”。

SORA震撼发布，彻底颠覆文生视频领域

 Stable Video Diffusion是文生图到文生视频的跨越：Stable Video Diffusion 的核心思想是将视频生成任务分解为两个阶段。首先，它使用扩散模型将随机噪声逐步转化为与输入图片相似的图像。这一阶段是通过逐步添加细节来完成的，类似于将一张图片逐渐“放大”。然后，在第二个阶段，该方法使用一个条件变分自编码器（cVAE）将生成的图像序列转化为视频。cVAE 是一种生成模型，能够学习数据分布的特征，并根据特定条件生成新的数据样本。

 SORA震撼发布，彻底颠覆文生视频领域：而SORA模型根本区别在于，可以理解成是一种融合Transformer模型与Stable Diffusion的一种模型，通过Transformer原理的编码器 - 解码器架构处理含噪点的输入图像，并在每一步预测出更清晰的图像版本。GPT-4被训练于以处理一串 Token，并预测出下一个 Token。SORA 不是预测序列中的下一个文本，而是预测序列中的下一个“Patch”。

SORA震撼发布，彻底颠覆文生视频领域

 SORA具有划时代文生视频的大模型： SORA将可视数据转换成数据包(patchs)，大语言模型通过token将各种形式的文本代码、数学和自然语言统一起来，而SORA则通过视觉包(patchs)实现了类似的效果。从宏观角度来看，首先将视频压缩到一个低维度的潜在空间：这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合，从而将原始视频转化为这些包。

 我们判断SORA模型的出现，算力需求有望呈现几何倍数的递增：我们判断Patchs与token的差别在于图片与文字，然而时空间数据相较于语言文字呈现的数据维度有着几何维度的差异，因此我们推测由于SORA，算力需求有望持续呈现几何规模的倍增，同时在信创和 AI的大背景下，国产算力有望大放异彩。