国内外多模态模型发展的路径是什么样的?

目前,国内外多模态模型的发展呈现出两条主要路径:

1. 语言为核心的多模态融合

例如,Gemini 模型主要以语言为核心,在此基础上整合感知层面的音频、视频和图像。这类模型通常采用多模态 Transformer 架构,旨在通过统一的语言模型处理多种模态数据,提升模型的推理和理解能力。

这类多模态模型支持以文本、图像、音频和视频的交错序列作为输入(在输入序列中用不同颜色的标记表示),它可以输出交错的图像和文本响应。然后把几种模态数据联合起来从从头训练,包括文本、图片、音频、视频等,遵循 next token prediction 的模式,所有模态的数据先变成 token,然后图片、视频等平面数据转换成 32*32 (举例)tokens,最后变成一维线性输入,让模型预测 next token,这样就把不同模态在预训练阶段统一起来。

2. 视频生成和渲染为主的多模态生成

例如,Sora 模型以视频生成和渲染为主,目标是生成主体一致、画面高清逼真的视频。这条路径的技术架构以 DiT(Diffusion Transformer)为主,专注于视觉效果的高质量生成。

图片

这类模型潜在的模型架构是以DiTs为核心,展现出优异的可拓展性。将Transformer引入潜在扩散模型(Latent diffusion model)实现良好的可拓展性。主要包含以下几个模块:

  • 视觉编码/解码器(Visual Encoder/Decoder):Encoder将原始图片和视频数据编码进入隐空间,降低维数节省算力;Decoder将潜空间中的数据重新映射为图片和视频数据。

  • DiTs模块(基于Transformer的扩散模型):模型的核心,将扩散模型的骨干U-Net卷积网络替换为可伸缩性更强的Transformer,展现出优异的可拓展性。

  • 文本编码器(Text embedding):将用户输入的Prompt编码为文本嵌入向量,作为DiTs模块的生成条件,引导模型生成符合文本描述的视频。

在这种划分方式下,例如国外的 Pika 和 Runway,以及国内的生数科技、Hidream 和爱诗科技等公司,主要沿袭 Sora 的多模态生成路线,侧重于视觉内容的创作和优化。而联汇科技则更接近于 Gemini 的路线,更关注智能体的推理、思考和规划能力,而不仅仅是生成逼真的视觉内容。

这种技术路线的差异表明,不同的多模态模型有着不同的应用方向和技术重点。Gemini 类模型注重多模态数据的综合理解和推理能力,以应对更复杂的认知任务;而 Sora 类模型则着重于视觉效果的提升,适用于对视频和图像质量有高要求的应用场景。当然,多模态模型的发展不仅仅是技术路线的选择问题,更是对不同应用需求的响应。以语言为核心的多模态融合路径,更多地关注模型在复杂任务中的综合表现,适用于需要多方面信息整合和高层次推理的应用场景,例如智能助理、复杂的问答系统和情感分析等。而以视频生成和渲染为主的路径,则更适合于需要高质量视觉输出的领域,如电影制作、虚拟现实和广告创意等。

PS:欢迎扫码关注公众号^_^.

  • 20
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值