通用视觉大模型综述

最新推荐文章于 2024-08-21 10:23:46 发布

Linux基金会AI&Data基金会

最新推荐文章于 2024-08-21 10:23:46 发布

阅读量3.4k

点赞数 1

文章标签：人工智能大数据编程语言机器学习深度学习

本文链接：https://blog.csdn.net/lf_ai/article/details/126377331

版权

本文综述了通用视觉大模型的发展，介绍了百度文心UFO 2.0、华为盘古CV和商汤INTERN大模型的特色与应用，探讨了大模型在多任务、部署和泛化能力上的挑战与解决方案。

摘要由CSDN通过智能技术生成

背景

近两年视觉大模型发展很快，各家公司已经训练出自己的视觉大模型，包括微软的 swin-transformer 系列、Google 的 vit 系列以及 150 亿参数量的 V-MOE 模型。

从paperwithcode榜单上可以看到，目前公有数据集任务榜单，如在 ImageNet 数据集上的分类任务、COCO 数据集上的目标检测与实例分割任务，上述榜单表现 SOTA 的都是大模型，实验结果证明大模型有更优的表现，我们之前的文章提到过超大视觉大模型，感兴趣的同学可以去看一下。训练视觉大模型会逐渐收敛，各家会逐渐探索视觉大模型的下一步，通用视觉模型的应用。

Google 的 Jeff Dean在去年10月份发表了一篇 blog 《Introducing Pathways: A next-generation AI architecture》，提到了下一代 AI 架构。

Pathways 在 AI 和模型上的定义是一个新的AI架构：1）能同时执行众多（AI）任务；2）快速学习新任务；3）拥有对（真实）世界的更好理解。业界对这种大一统的模型探索从来都没有停止，一个更加泛化，多模态输入，多任务的模型是追求的目标。目前业界推出了一些通用视觉模型，并且有了一些探索结果，本文将主要介绍百度文心 UFO 2.0 视觉大模型、华为盘古 CV 以及商汤的 INTERN 大模型。

百度文心 UFO 2.0

概述

预训练大模型一次次刷新记录，展现出惊人的效果，但对于产业界而言，势必要面对如何应用落地的问题。当前预训练模型的落地流程可被归纳为：针对只有少量标注数据的特定任务，使用任务数据 fine-tune 预训练模型并部署上线。然而，当预训练模型参数量不断增大后，该流程面临两个严峻的挑战。首先，随着模型参数量的急剧增加，大模型 fine-tuning 所需要的计算资源将变得非常巨大，普通开发者通常无法负担。其次，随着 AIoT 的发展，越来越多 AI 应用从云端往边缘设备、端设备迁移，而大模型却无法直接部署在这些存储和算力都极其有限的硬件上。

针对预训练大模型落地所面临的问题，百度提出统一特征表示优化技术（UFO：Unified Feature Optimization），在充分利用大数据和大模型的同时，兼顾大模型落地成本及部署效率。VIMER-UFO 2.0 技术方案的主要内容包括：

All in One：行业最大 170 亿参数视觉多任务模型，覆盖人脸、人体、车辆、商品、食物细粒度分类等 20+ CV 基础任务，单模型 28 个公开测试集效果 SOTA。One for All：首创针对视觉多任务的超网络与训练方案，支持各类任务、各类硬件的灵活部署，解决大模型参数量大，推理性能差的问题。