目前,国内外多模态模型的发展呈现出两条主要路径:
1. 语言为核心的多模态融合:
例如,Gemini 模型主要以语言为核心,在此基础上整合感知层面的音频、视频和图像。这类模型通常采用多模态 Transformer 架构,旨在通过统一的语言模型处理多种模态数据,提升模型的推理和理解能力。
这类多模态模型支持以文本、图像、音频和视频的交错序列作为输入(在输入序列中用不同颜色的标记表示),它可以输出交错的图像和文本响应。然后把几种模态数据联合起来从从头训练,包括文本、图片、音频、视频等,遵循 next token prediction 的模式,所有模态的数据先变成 token,然后图片、视频等平面数据转换成 32*32 (举例)tokens,最后变成一维线性输入,让模型预测 next token,这样就把不同模态在预训练阶段统一起来。
2. 视频生成和渲染为主的多模态生成:
例如,Sora 模型以视频生成和渲染为主,目标是生成主体一致、画面高清逼真的视频。这条路径的技术架构以 DiT(Diffusion Transformer)为主,专注于视觉效果的高质量生成。
这类模型潜在的模型架构是以DiTs为核心,展现出优异的可拓展性。将Transformer引入潜在扩散模型(Latent diffusion model)实现良好的可拓展性。主要包含以下几个模块:
-
视觉编码/解码器(Visual Encoder/Decoder):Encoder将原始图片和视频数据编码进入隐空间,降低维数节省算力;Decoder将潜空间中的数据重新映射为图片和视频数据。
-
DiTs模块(基于Transformer的扩散模型):模型的核心,将扩散模型的骨干U-Net卷积网络替换为可伸缩性更强的Transformer,展现出优异的可拓展性。
-
文本编码器(Text embedding):将用户输入的Prompt编码为文本嵌入向量,作为DiTs模块的生成条件,引导模型生成符合文本描述的视频。
在这种划分方式下,例如国外的 Pika 和 Runway,以及国内的生数科技、Hidream 和爱诗科技等公司,主要沿袭 Sora 的多模态生成路线,侧重于视觉内容的创作和优化。而联汇科技则更接近于 Gemini 的路线,更关注智能体的推理、思考和规划能力,而不仅仅是生成逼真的视觉内容。
这种技术路线的差异表明,不同的多模态模型有着不同的应用方向和技术重点。Gemini 类模型注重多模态数据的综合理解和推理能力,以应对更复杂的认知任务;而 Sora 类模型则着重于视觉效果的提升,适用于对视频和图像质量有高要求的应用场景。当然,多模态模型的发展不仅仅是技术路线的选择问题,更是对不同应用需求的响应。以语言为核心的多模态融合路径,更多地关注模型在复杂任务中的综合表现,适用于需要多方面信息整合和高层次推理的应用场景,例如智能助理、复杂的问答系统和情感分析等。而以视频生成和渲染为主的路径,则更适合于需要高质量视觉输出的领域,如电影制作、虚拟现实和广告创意等。
PS:欢迎扫码关注公众号^_^.