基于多模态的预训练大模型将实现图文音统一知识表示,成为
人工智能基础设施。
人工智能正在从文本、语音、视觉
等单模态智能,向着多种模态融合的通
用人工智能方向发展。多模态统一建模,
目的是增强模型的跨模态语义对齐能力,
打通各个模态之间的关系,使得模型逐
步标准化。目前,技术上的突出进展来
自于
CLIP
(匹配图像和文本)和
BEiT-3
(通用多模态基础模型)。基于多领域知
识,构建统一的、跨场景、多任务的多
模态基础模型已成为人工智能的重点发
展方向。未来大模型作为基础设施,将
实现图像、文本、音频统一知识表示,
并朝着能推理、能回答问题、能总结、
做创作的认知智能方向演进。
基
于深度学习的多模态预训练是认
知智能快速发展的重要推动力。
构建多场景、多任务的预训练大模型将
加速模型标准化进程,为人工智能模型
成为基础设施创造条件。深度学习模型
的不断完善、互联网海量真实数据的积
累和生成式预训练的广泛应用,使得人
工智能模型在自然语言理解、语音处理、
计算机视觉等领域地交叉应用取得显著
进展。
2022
年,技术上的突出进展来自
于
BEiT-3
多模态基础模型,该模型在
视觉
-
语言任务处理上具备出色表现,
包括视觉问答、图片描述生成和跨模态
检索等。
BEiT-3
通过统一的模型框架和
骨干网络(
backbone
)建模,能够更加
轻松地完成多模态编码和处理不同的下
游任务。另一方面,
CLIP
(
Contrastive
Language-Image Pre-training
)的 广 泛
应用也促进了多模态模型的技术发展。
CLIP
作为基于对比学习的预训练模
型,负责从文本特征映射到图像特征,
能够指导
GAN
或扩散模型(
Diffusion
Model
)生 成 图 像。 在 文 生 图 领 域,
Stable Diffusion
也使用了
CLIP
,它能
够通过文本提示调整模型,并借助扩散
模型改善图像质量。与此同时,开源极
大的促进了多模态的融合和预训练模型
的发展。通过开源来降低模型使用门槛,
将大模型从一种新兴的
AI
技术转变为稳
健的基础设施,已成为许多大模型开发者
的共识。
多模态预训练模型的发展将重塑