近年来,计算机视觉领域见证了基础模型的兴起,这些模型无需训练自定义模型即可进行图像注释。我们已经看到了用于分类的 CLIP [2]、用于对象检测的 GroundingDINO [3] 和用于分割的 SAM [4] 等模型——每个模型都在其领域表现出色。但是,如果我们有一个能够同时处理所有这些任务的单一模型会怎样?
在本教程中,我们将介绍 Florence-2 [1]——一种新颖的开源视觉语言模型 (VLM),旨在处理各种视觉和多模态任务,包括字幕、对象检测、分割和 OCR。
结合 Colab 笔记本,我们将探索 Florence-2 的零样本功能,以标注旧相机的图像。
NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割 - 3D道路快速建模
1、Florence-2简介
Florence-2 由微软于 2024 年 6 月发布。它旨在在单个模型中执行多项视觉任务。它是一个开源模型,在 Hugging Face 上根据宽松的 MIT 许可证提供。
1.1 背景
尽管 Florence-2 的规模相对较小,但其版本参数分别为 0.23B 和 0.77B,实现了最先进 (SOTA) 的性能。其紧凑的尺寸使其能够在计算资源有限的设备上高效部署,同时确保快速的推理速度。
该模型在一个名为 FLD-5B 的庞大高质量数据集上进行了预训练,该数据集包含 1.26 亿张图像上的 5.4B 条注释。这使得 Florence-2 无需额外训练即可在许多任务上表现出色。
Florence-2 模型的原始开源权重支持以下任务:
任务类别 | 任务提示 | 描述 | 输入 | 输出 |
---|---|---|---|---|
图像字幕 | ||||
为图像生成基本字幕 | 图像 | 文本 | ||
<DETAILED_CAPTION> | 为图像生成详细字幕 |