AIGC专题:Sora算力倍增,国产架构+生态崛起

今天分享的是AIGC系列深度研究报告:《AIGC专题:Sora算力倍增,国产架构+生态崛起》。

(报告出品方:华西证券股份有限公司

报告共计:48

来源:人工智能学派

大语言模型、文生图、文生视频加速演进

 大语言模型(LLM):LLM是一种利用机器学习技术来理解和生成人类语言的人工智能模型。LLM 使用基于神经网络的模型,通常运用自 然语言处理(NLP)技术来处理和计算其输出。我们判断GPT3、GPT3.5皆为大语言模型,GPT在此基础上引入了多模态。

 文生图:与大预言模型不同,多模态可以根据文字描述创建原创、逼真的图像和艺术作品。它可以组合概念、属性和样式,我们认为文 生图功能对于传统图型生成工具具有颠覆性。

 文生视频:多模态人工智能技术实现了从AI文生图到AI文生视频的跨越,实为解放生产力的双手,我们认为其功能颠覆 摄影、传媒、 电影制作等行业,例如Gen2。

 SORA推开新世界的大门,文生视频加速演进:OpenAI 2月16日凌晨发布了文生视频大模型Sora,它能够仅仅根据提示词,生成60s的 连贯视频,“碾压”了行业目前大概只有平均“4s”的视频生成长度。

大语言模型、文生图、文生视频加速演进

 Transformer架构是AI向生成式跨越的重要一步:是一种采用自注意力机制的深度学习模型,这一机制可以按输入数据各部分重要性 的不同而分配不同的权重。我们判断其广泛应用于大语言模型中(LLM),例如ChatGPT系列中。Transformer模型旨在处理自然语言等 顺序输入数据,可应用于翻译、文本摘要等任务。注意力机制可以为输入序列中的任意位置提供上下文。

 文生图的基础采用的是Stable Diffusion架构:Stable Diffusion架构是一种自回归模型,基于扩散模型,因此训练和推理代价都很高。 它主要用于生成以文本描述为条件的详细图像,但它也可以应用于其他任务,例如修复、外绘以及在文本提示引导下生成图像到图像的 翻译。首先需要训练好一个自编码模型,然后利用编码器进行压缩,然后在潜在表示空间上做diffusion操作,最后再用解码器恢复到 原始像素空间即可,整个流程类比物理学中的“扩散”。

SORA震撼发布,彻底颠覆文生视频领域

 Stable Video Diffusion是文生图到文生视频的跨越:Stable Video Diffusion 的核心思想是将视频生成任务分解为两个阶段。首先, 它使用扩散模型将随机噪声逐步转化为与输入图片相似的图像。这一阶段是通过逐步添加细节来完成的,类似于将一张图片逐渐“放 大”。然后,在第二个阶段,该方法使用一个条件变分自编码器(cVAE)将生成的图像序列转化为视频。cVAE 是一种生成模型,能够 学习数据分布的特征,并根据特定条件生成新的数据样本。

 SORA震撼发布,彻底颠覆文生视频领域:而SORA模型根本区别在于,可以理解成是一种融合Transformer模型与Stable Diffusion的 一种模型,通过Transformer原理的编码器 - 解码器架构处理含噪点的输入图像,并在每一步预测出更清晰的图像版本。GPT-4被训练于以处理一串 Token,并预测出下一个 Token。SORA 不是预测序列中的下一个文本,而是预测序列中的下一个“Patch”。

SORA震撼发布,彻底颠覆文生视频领域

 SORA具有划时代文生视频的大模型: SORA将可视数据转换成数据包(patchs),大语言模型通过token将各种形式的文本代码、数学 和自然语言统一起来,而SORA则通过视觉包(patchs)实现了类似的效果。从宏观角度来看,首先将视频压缩到一个低维度的潜在空间: 这是通过对视频进行时间和空间上的压缩实现的。这个潜在空间可以看作是一个“时空包”的集合,从而将原始视频转化为这些包。

 我们判断SORA模型的出现,算力需求有望呈现几何倍数的递增:我们判断Patchs与token的差别在于图片与文字,然而时空间数据相 较于语言文字呈现的数据维度有着几何维度的差异,因此我们推测由于SORA,算力需求有望持续呈现几何规模的倍增,同时在信创和 AI的大背景下,国产算力有望大放异彩。

报告共计:48页

来源:人工智能学派

  • 12
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值