通用视觉预训练大模型巡礼系列（一）：UFO大模型

最新推荐文章于 2024-07-30 11:50:57 发布

PaperWeekly

最新推荐文章于 2024-07-30 11:50:57 发布

阅读量962

点赞数

文章标签：人工智能 python 开发语言

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/128722161

版权

本文介绍了百度的UFO通用视觉大模型，该模型采用统一特征表示优化技术，旨在降低AI在视觉任务中的数据依赖，支持多任务小样本微调。UFO是170亿参数的视觉多任务模型，涵盖多个CV基础任务，通过任务粒度的路径选择实现高效部署。

摘要由CSDN通过智能技术生成

©PaperWeekly 原创 · 作者 | 张燚钧

单位 | 中国移动云能力中心

研究方向 | 预训练大模型

近来，以 ChatGPT 为代表的自然语言对话大模型，以及以 Stable Diffusion 为代表的多模态文图生成大模型展现出惊艳的效果。而面向视觉领域的通用视觉模型相对来说似乎略显冷清。

事实上，从 2021 年商汤联合上海人工智能实验室发布“书生”通用视觉体系以及在 2022 年世界人工智能大会上发布的“书生 2.0”版本、2021 年华为发布盘古 CV 大模型、2022 年百度发布 UFO 通用视觉大模型、智源研究院开源 EVA 视觉大模型等等可以看出，学术界和工业界一直持续关注预训练大模型技术在视觉领域的发展和应用落地。

结合自己的研究兴趣，笔者一直以来比较关注预训练大模型技术在视觉领域的技术进展。人工智能技术在面向视觉的工业应用落地场景非常广阔。尽管在人脸、车辆识别等场景中，利用传统 AI 技术已经能够解决单个场景的业务需求。但是这种“手工作坊式”的开发模式，导致模型开发成本随着场景增长而提高。大量长尾场景中数据获取代价高昂，AI 技术落地困难。随着预训练大模型技术的发展，这种 AI 落地困境可能得到解决。

通用视觉预训练大模型就是要解决 AI 技术在视觉任务场景中的落地难题，为 AI 模型降低对场景数据依赖，支持下游多任务通过小样本微调达到高性能。尽管通用预训练视觉大模型要解决的问题是一致的，但是各家视觉大模型的技术路线不尽相同。其中有很多值得研究的地方，希望这些研究也会给通用视觉预训练大模型技术的发展、乃至未来多模态大模型中视觉模态的融入方法带来启发。

本次主要分享百度 UFO 视觉大模型相关技术。主要研究内容是基于 ECCV 2022 的论文《UFO: Unified Feature Optimization》[1] 和百度 UFO 模型的开源代码。

论文链接：

https://arxiv.org/pdf/2207.10341.pdf

代码链接：

https://github.com/PaddlePaddle/VIMER/blob/main/UFO/

UFO大模型整体概述

针对预训练大模型落地所面临的问题，百度提出统一特征表示优化技术（UFO：Unified Feature Optimization），在充分利用大数据和大模型的同时，兼顾大模型落地成本及部署效率。百度 UFO 大模型是行业最大 170 亿参数视觉多任务模型，覆盖人脸、人体、车辆、商品、食物细粒度分类等 20+ CV 基础任务，单模型 28 个公开测试集效果 SOTA。