国内外多模态模型发展的路径是什么样的？

本文链接：https://blog.csdn.net/m0_59164520/article/details/139276022

目前，国内外多模态模型的发展呈现出两条主要路径：

1. 语言为核心的多模态融合：

例如，Gemini 模型主要以语言为核心，在此基础上整合感知层面的音频、视频和图像。这类模型通常采用多模态 Transformer 架构，旨在通过统一的语言模型处理多种模态数据，提升模型的推理和理解能力。

在这里插入图片描述

这类多模态模型支持以文本、图像、音频和视频的交错序列作为输入（在输入序列中用不同颜色的标记表示），它可以输出交错的图像和文本响应。然后把几种模态数据联合起来从从头训练，包括文本、图片、音频、视频等，遵循 next token prediction 的模式，所有模态的数据先变成 token，然后图片、视频等平面数据转换成 32*32 (举例）tokens，最后变成一维线性输入，让模型预测 next token，这样就把不同模态在预训练阶段统一起来。

2. 视频生成和渲染为主的多模态生成：

例如，Sora 模型以视频生成和渲染为主，目标是生成主体一致、画面高清逼真的视频。这条路径的技术架构以 DiT（Diffusion Transformer）为主，专注于视觉效果的高质量生成。

在这里插入图片描述

这类模型潜在的模型架构是以DiTs为核心，展现出优异的可拓展性。将Transformer引入潜在扩散模型（Latent diffusion model）实现良好的可拓展性。主要包含以下几个模块：

视觉编码/解码器(Visual Encoder/Decoder)：Encoder将原始图片和视频数据编码进入隐空间，降低维数节省算力；Decoder将潜空间中的数据重新映射为图片和视频数据。
DiTs模块（基于Transformer的扩散模型）：模型的核心，将扩散模型的骨干U-Net卷积网络替换为可伸缩性更强的Transformer，展现出优异的可拓展性。
文本编码器(Text embedding)：将用户输入的Prompt编码为文本嵌入向量，作为DiTs模块的生成条件，引导模型生成符合文本描述的视频。

在这种划分方式下，例如国外的 Pika 和 Runway，以及国内的生数科技、Hidream 和爱诗科技等公司，主要沿袭 Sora 的多模态生成路线，侧重于视觉内容的创作和优化。而联汇科技则更接近于 Gemini 的路线，更关注智能体的推理、思考和规划能力，而不仅仅是生成逼真的视觉内容。

这种技术路线的差异表明，不同的多模态模型有着不同的应用方向和技术重点。Gemini 类模型注重多模态数据的综合理解和推理能力，以应对更复杂的认知任务；而 Sora 类模型则着重于视觉效果的提升，适用于对视频和图像质量有高要求的应用场景。当然，多模态模型的发展不仅仅是技术路线的选择问题，更是对不同应用需求的响应。以语言为核心的多模态融合路径，更多地关注模型在复杂任务中的综合表现，适用于需要多方面信息整合和高层次推理的应用场景，例如智能助理、复杂的问答系统和情感分析等。而以视频生成和渲染为主的路径，则更适合于需要高质量视觉输出的领域，如电影制作、虚拟现实和广告创意等。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述