CVPR 2021 | 视觉目标检测大模型GAIA：面向行业的视觉物体检测一站式解决方案

最新推荐文章于 2024-07-29 09:00:36 发布

3Ｄ视觉工坊

最新推荐文章于 2024-07-29 09:00:36 发布

阅读量2.4k

点赞数 1

文章标签：算法大数据编程语言计算机视觉机器学习

作者丨常清

编辑丨机器之心

中国科学院自动化研究所智能感知与计算研究中心联合华为等企业提出面向行业的视觉物体检测一站式解决方案 GAIA。

在深度学习与大数据的浪潮下，视觉目标检测在各个基准数据集上已经达到了优异的性能。中国科学院自动化研究所智能感知与计算研究中心联合华为等企业提出面向行业的视觉物体检测一站式解决方案 GAIA。通过 GAIA，用户可轻松获得不同硬件环境下的可直接用于部署的目标检测模型。GAIA 致力于构建一种生态，它以目标检测为基础，后续将会开枝散叶扩展到更多领域，期望更多的学者和用户共同维护 GAIA 的迭代，参与到 GAIA 社区中。该研究的论文已被 CVPR 2021接收。

论文地址：https://arxiv.org/pdf/2106.11346.pdf
开源框架：https://github.com/GAIA-vision

GAIA 应时而生

目标检测是识别图片中有哪些物体以及物体的位置（坐标位置）的技术，是计算机视觉应用的基础，比如实例分割、人体关键点提取、人脸识别等。在互联网、大数据、人工智能等技术的发展浪潮下，目标检测展现出巨大的应用价值，受到工业界、学术界的密切关注。各类研究机构争相构建并对外公开 COCO、OpenImage 等大规模数据集用于目标检测模型训练。数据集的日益丰富极大促进了技术的更新迭代，不断涌现出以 Faster R-CNN 为脉络发展的 Two-stage 和以 YOLO、SSD 为基础的 One-stage 目标检测新范式。

目标检测技术在产业应用中的需求越来越广泛和深入，学术界已经训练好的模型评估都是基于标准 benchmark，在产业化应用落地中通常表现出严重的 “水土不服”，需要重新定制化开发。快速设计出最适合工业界不同业务场景的目标检测模型是一项很有挑战的工作，需要决定制化需求开发中的核心痛点问题：

一、数据整合难。数据治理是建模的基本要素，在 AI 应用开发过程中，从数据的采集、清洗和转换到最终生成算法所需的数据集需要经历繁琐的流程和花费高昂的成本，而且很有可能因为数据的准确性、完整性、有效性等问题，无法发挥模型优势。

二、模型优化难。模型需有冗繁调参、预训练过程才能发挥其性能。很多终端用户由于没有足够相关专业领域知识，无法从纷繁复杂的模型及数据中选取最优资源。对个人用户来说，计算资源不足导致训练耗时过长，使得算法调优更是雪上加霜。

三、资源共享难。不同用户可能有类似的需求，但是他们都需要分别进行一系列从数据到模型的重复开发，模型迁移难度大，而且资源浪费严重。

四、模型定制难。针对不同的下游任务，往往需求千差万别，数据各式各样，算力各有不同，现在方法往往需要针对不同下游任务进行人工定制，费时费力。

为此提出了面向行业的视觉物体检测一站式解决方案：视觉目标检测大模型 GAIA（相关人员包括：张兆翔研究员、彭君然博士、卜兴源、常清等）。该平台适应移动终端、个人电脑、大型服务器等任意场景，终端用户只需要在 GAIA 配置文件中设置检测的类别，输入简单的几行命令，GAIA 迅速响应，自主学习数据集选择、模型选择和超参数优化等过程，用户可以轻松、快速获得任意下游数据、任意耗时要求的自适应解决方案（图 1）。

图 1. GAIA - 面向行业的视觉物体检测一站式解决方案

GAIA 详解

视觉目标检测大模型 GAIA 作为面向行业打造的下一代一站式目标检测新方案，包含上游数据集、全模型训练、稀疏数据下数据选取和部署模型提取四个模块。

图 2. 视觉目标检测大模型 GAIA 技术框架

上游数据集赋能

各类研究机构为不同的研究任务构建了各类目标检测公开数据集，如 COCO、Object365、Open Images、Caltech、CityPersons、UODB 等都是主流的目标检测数据集。学术界往往都是在上述标准数据集下进行检测任务的训练和测试，但是对产业界来讲，如何从已有的数据集中选取适合应用场景的子集却是举步维艰。

借鉴大规模预训练模型 BERT、GPT-3 等在自然语言处理领域中的成功，GAIA 将该范式延拓到视觉目标检测领域，对所有可用公开数据集整合并进行大规模预训练，增加模型的泛化能力和表示能力。由于自然语言中语料数据集本身是离散型，自然语言处理中的大规模预训练很容易构建无监督训练任务。但是这种方法迁移至计算机视觉领域就会遇到很多瓶颈，不同数据集的类别标签很容易出现歧义，比如像 earth、ground 可能在不同的数据集中都表示地面，或不同数据集类别标签之间存在包含关系，像绿植和树。GAIA 通过语义模型对类别建立语义相似度，将不同数据集中类别语义相似度大于阈值的归为同一类别，从而梳理出最终的类别和 ID 的映射关系。

全模型训练

神经网络架构搜索算法 OFA、BigNAS 等在训练超网时，对其中的子网同时训练，这样只需花费很小的代价就可得到不需要微调就性能优异的子网络。与 BERT、GPT 等预训练大模型相比，GAIA 不同之处在于将 NAS 与大规模预训练进行结合，提供涵盖各种 latency 下的高性能预训练网络。设计良好的子网采样空间对网络的训练至关重要，在我们进行探索的过程中发现网络深度和输入图像分辨率是影响模型性能的核心因素，网络宽度是模型运行占用显存的关键因素（图 3）。因此 GAIA 的采样空间从网络深度、输入分辨率、网络宽度三个维度出发，根据已有的经典网络模型设置锚点，在锚点周围空间从三个维度进行子网抽取，让整个模型训练过程更加有效。

图 3. 模型性能分析

特定下游任务数据选取

用户在本地下游任务中，能提供的有标签数据十分有限，已有的开源数据集虽然包含的数据类别十分丰富，数量也十分庞大，但是相同类别的数据存在域间差异，比如漫画图片中的鸟和自然场景中的鸟存在很大差异，直接通过类别使用开源数据集，只会对用户本地下游任务产生不利的影响，选取合适数据集，帮助下游任务是一项不小的挑战。

如果终端用户提供的有标签数据数量没有达到预先设定好的阈值，GAIA 会直接根据该使用的语义模型找到本地类别中语义信息最近似的类别，在该类别的上游数据集上通过模型映射向量的相似度找到域间差异最小的一部分图片（如图 5），并对提取模型快速训练。通过该功能，即使用户只能够提供几张图片的数据场景下，GAIA 同样可以提供十分出色的模型。

图 5. 特定任务数据选取

下游模型选择

GAIA 已经测好所包含各种子网的 FLPOPS TABLE，以及多种硬件平台下的 LATENCY TABLE（图 6）。对于初级使用者而言，只需要在本地提供 FLPOPS、LATENCY 和硬件平台，就可以获得满足这些约束的性能最佳的子网。对于经验丰富的使用者，可通过 GAIA 提供的接口，自定义添加其他约束条件，轻松获取性能优异的定制化子网模型

图 6. 下游模型结构选取

优越性能

GAIA 的强大之处最直接体现在可以满足用户给出的任意时延或任意下游数据，快速定制可部署检测模型，以 COCO 数据集为例，GAIA-det 可以快速提供时延 16~53ms、AP 38.2~46.2 的模型。用户不需要再花费很大的精力从数据到模型重新开发。

GAIA 已经在 VOC、Object365、OpenImages、Caltech、KITTI 等 15 个目标检测常用公开数据集上通过测试（图 7），发现 GAIA 提供的模型可以很好的满足终端用户的定制需求。

图 7. GAIA 在目标检测常用数据集的性能对比

未来展望

视觉目标检测大模型 GAIA 是面向行业的视觉物体检测一站式解决方案，随着应用场景的日益丰富和理论技术的突破，不断更新的上游数据集会定期汇聚到 GAIA，新的训练模型和网络架构都会通过测试验证后迭代至 GAIA，确保 GAIA 一直为终端用户提供最优质的行业解决方案。现阶段，GAIA-det 已在 Github 上开源，GAIA-seg、GAIA-ssl 接近完成，即将推出，致力于解决更多领域的问题。。GAIA 是我们大家共同的 GAIA，GAIA 需要大家的宝贵意见和建议，期望更多的学者和用户共同维护 GAIA 的迭代，参与到 GAIA 生态建设中，一起让 GAIA 成长得更快更好。

参考文献：

Xingyuan Bu*, Junran Peng*, Junjie Yan, Tieniu Tan, Zhaoxiang Zhang†, GAIA: A Transfer Learning System of Object Detection that Fits Your Needs, IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021, Online (Nashville, United States), June 19-25, 2021

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用，麻烦给个赞和在看~

3Ｄ视觉工坊

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
CVPR 2021 | 视觉目标检测大模型GAIA：面向行业的视觉物体检测一站式解决方案

作者丨常清编辑丨机器之心中国科学院自动化研究所智能感知与计算研究中心联合华为等企业提出面向行业的视觉物体检测一站式解决方案 GAIA。在深度学习与大数据的浪潮下，视觉目标检测在各个基准数据...
复制链接

扫一扫