通用视觉大模型综述

本文综述了通用视觉大模型的发展,介绍了百度文心UFO 2.0、华为盘古CV和商汤INTERN大模型的特色与应用,探讨了大模型在多任务、部署和泛化能力上的挑战与解决方案。
摘要由CSDN通过智能技术生成

背景

近两年视觉大模型发展很快,各家公司已经训练出自己的视觉大模型,包括微软的 swin-transformer 系列、Google 的 vit 系列以及 150 亿参数量的 V-MOE 模型。

从paperwithcode榜单上可以看到,目前公有数据集任务榜单,如在 ImageNet 数据集上的分类任务、COCO 数据集上的目标检测与实例分割任务,上述榜单表现 SOTA 的都是大模型,实验结果证明大模型有更优的表现,我们之前的文章提到过超大视觉大模型,感兴趣的同学可以去看一下。训练视觉大模型会逐渐收敛,各家会逐渐探索视觉大模型的下一步,通用视觉模型的应用。

Google 的 Jeff Dean在去年10月份发表了一篇 blog 《Introducing Pathways: A next-generation AI architecture》,提到了下一代 AI 架构。

Pathways 在 AI 和模型上的定义是一个新的AI架构:1)能同时执行众多(AI)任务;2)快速学习新任务;3)拥有对(真实)世界的更好理解。业界对这种大一统的模型探索从来都没有停止,一个更加泛化,多模态输入,多任务的模型是追求的目标。目前业界推出了一些通用视觉模型,并且有了一些探索结果,本文将主要介绍百度文心 UFO 2.0 视觉大模型、华为盘古 CV 以及商汤的 INTERN 大模型。

百度文心 UFO 2.0

概述

预训练大模型一次次刷新记录,展现出惊人的效果,但对于产业界而言,势必要面对如何应用落地的问题。当前预训练模型的落地流程可被归纳为:针对只有少量标注数据的特定任务,使用任务数据 fine-tune 预训练模型并部署上线。然而,当预训练模型参数量不断增大后,该流程面临两个严峻的挑战。首先,随着模型参数量的急剧增加,大模型 fine-tuning 所需要的计算资源将变得非常巨大,普通开发者通常无法负担。其次,随着 AIoT 的发展,越来越多 AI 应用从云端往边缘设备、端设备迁移,而大模型却无法直接部署在这些存储和算力都极其有限的硬件上。

针对预训练大模型落地所面临的问题,百度提出统一特征表示优化技术(UFO:Unified Feature Optimization),在充分利用大数据和大模型的同时,兼顾大模型落地成本及部署效率。VIMER-UFO 2.0 技术方案的主要内容包括:

All in One:行业最大 170 亿参数视觉多任务模型,覆盖人脸、人体、车辆、商品、食物细粒度分类等 20+ CV 基础任务,单模型 28 个公开测试集效果 SOTA。One for All:首创针对视觉多任务的超网络与训练方案,支持各类任务、各类硬件的灵活部署,解决大模型参数量大,推理性能差的问题。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Linux基金会AI&Data基金会

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值