思腾云计算

基于多模态的预训练大模型将实现图文音统一知识表示,成为 人工智能基础设施。 人工智能正在从文本、语音、视觉 等单模态智能,向着多种模态融合的通 用人工智能方向发展。多模态统一建模, 目的是增强模型的跨模态语义对齐能力, 打通各个模态之间的关系,使得模型逐 步标准化。目前,技术上的突出进展来 自于 CLIP(匹配图像和文本)和 BEiT-3 (通用多模态基础模型)。基于多领域知 识,构建统一的、跨场景、多任务的多 模态基础模型已成为人工智能的重点发 展方向。未来大模型作为基础设施,将 实现图像、文本、音频统一知识表示, 并朝着能推理、能回答问题、能总结、 做创作的认知智能方向演进。 基于深度学习的多模态预训练是认 知智能快速发展的重要推动力。 构建多场景、多任务的预训练大模型将 加速模型标准化进程,为人工智能模型 成为基础设施创造条件。深度学习模型 的不断完善、互联网海量真实数据的积 累和生成式预训练的广泛应用,使得人 工智能模型在自然语言理解、语音处理、 计算机视觉等领域地交叉应用取得显著 进展。 2022 年,技术上的突出进展来自 于 BEiT-3 多模态基础模型,该模型在 视觉 - 语言任务处理上具备出色表现, 包括视觉问答、图片描述生成和跨模态 检索等。BEiT-3 通过统一的模型框架和 骨干网络(backbone)建模,能够更加 轻松地完成多模态编码和处理不同的下 游任务。另一方面,CLIP(Contrastive  Language-Image Pre-training)的 广 泛 应用也促进了多模态模型的技术发展。 CLIP 作为基于对比学习的预训练模 型,负责从文本特征映射到图像特征, 能够指导 GAN 或扩散模型(Diffusion  Model)生 成 图 像。 在 文 生 图 领 域, Stable Diffusion 也使用了 CLIP,它能 够通过文本提示调整模型,并借助扩散 模型改善图像质量。与此同时,开源极 大的促进了多模态的融合和预训练模型 的发展。通过开源来降低模型使用门槛, 将大模型从一种新兴的 AI 技术转变为稳 健的基础设施,已成为许多大模型开发者 的共识。 多模态预训练模型的发展将重塑 作者:思腾云计算GPU服务器 https://www.bilibili.com/read/cv32682442/ 出处:bilibili

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值