【深度学习：视觉基础模型】视觉基础模型 (VFM) 解释

jcfszxc

已于 2024-09-30 16:46:35 修改

阅读量4.7k

点赞数 28

分类专栏：深度学习知识专栏文章标签：深度学习人工智能

于 2024-01-11 09:36:13 首次发布

原文链接：https://encord.com/blog/visual-foundation-models-vfms-explained/

版权

深度学习知识专栏专栏收录该内容

76 篇文章

订阅专栏

在这里插入图片描述

本文翻译转载自：Visual Foundation Models (VFMs) Explained

据雅虎财经称，计算机视觉（CV）市场正在飙升，预计年增长率为 19.5%。到 2023 年，预计其价值将达到 1004 亿美元，而 2022 年为 169 亿美元。这一增长很大程度上归功于视觉基础模型 (VFM) 的开发，该模型旨在理解和处理视觉数据的复杂性。

VFM 在各种 CV 任务中表现出色，包括图像生成、对象检测、语义分割、文本到图像生成、医学成像等。它们的准确性、速度和效率使其在企业规模上非常有用。

本指南概述了 VFM，并讨论了几种可用的重要模型。我们将列出它们的优点和应用，并重点介绍 VFM 的突出微调技术。

了解视觉基础模型

基础模型是通用的大规模人工智能 (AI) 模型，组织用它来构建下游应用程序，特别是在生成式 AI 领域。例如，在自然语言处理 (NLP) 领域，BERT、GPT-3、GPT-4 和 MPT-30B 等大型语言模型 (LLM) 是基础模型，使企业能够构建定制的聊天或语言系统特定任务并能够理解人类语言以增强客户参与度。

视觉基础模型是执行图像生成任务的基础模型。 VFM 通常包含大型语言模型的组件，以便使用基于文本的输入提示生成图像。它们需要适当的即时工程来实现高质量的图像生成结果。专有和开源 VFM 的一些著名示例包括 Stable Diffusion、Florence、Pix-2-Pix、DALL-E 等。这些模型在巨大的数据集上进行训练，使它们能够理解视觉中复杂的特征、模式和表示。数据。他们使用专注于处理视觉信息的各种架构和技术，使它们能够适应许多用例。

从 CNN 到 Transformer 的演变

传统上，计算机视觉模型使用卷积神经网络（CNN）来提取相关特征。 CNN 一次专注于图像的一部分，使它们能够在推理时有效地区分对象、边缘和纹理。

2017 年，一篇题为“Attention is All You Need”的研究论文通过引入一种新的机器学习架构来构建有效的语言模型，改变了 NLP 的格局。该架构采用文本序列并生成文本序列作为输入输出格式。其关键组件是注意力机制，它使模型能够专注于文本序列的基本部分。总体而言，Transformer 可以更好地理解较长的文本，并提供更高的速度和准确性。Transformer 架构催生了我们今天所知的基础 LLM。

尽管注意力机制最初是针对语言格式的，但研究人员很快就看到了它在计算机视觉应用中的潜力。 2020 年，一篇题为“An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale”的研究论文展示了 Transformers 算法如何将图像转换为矢量化嵌入，并使用自注意力机制让模型理解图像片段之间的关系。生成的模型称为视觉变换器 (ViT)。

在这里插入图片描述
Vision Transformer 架构

如今，ViT 被用来为许多 VFM 提供动力。此外，GPU 的日益普及使得处理视觉数据和执行大规模生成式 AI 工作负载变得更加容易。因此，不同VFM的开发和部署变得更加可行。

自我监督和适应能力

许多视觉基础模型使用自我监督技术来从未标记的数据中学习。与所有数据点都必须有标签的监督学习不同，自监督技术可以通过未标记的数据点进行模型训练。这使得企业能够快速调整它们以适应特定的用例，而不会产生高昂的数据注释成本。

💡有兴趣了解更多关于自我监督的信息吗？阅读我们的详细博客：自我监督学习解释。

流行的视觉基础模型

基础模型正在取得显着进展，导致出现了各种旨在在不同视觉任务中表现出色的 VFM。让我们探讨一些最著名的 VFM。

DINO（自蒸馏，无标签）

DINO是Meta AI基于ViT和师生架构的自监督模型。它使用户能够快速分割图像中的任何对象，从而可以从图像中提取有价值的特征，而无需耗时的微调和数据增强过程。

SAM（分段任意模型）

与传统方法相比，SAM 需要最少的注释，从而彻底改变了图像和视频分割。 CV从业者可以给出一系列提示来提取不同的图像特征。提示采用可点击的形式，这意味着从业者可以选择任何图像的特定部分，SAM 会将其分割出来以便更快地注释。

在这里插入图片描述
SAM 概述

💡如果您想了解有关 SAM 的更多信息，请阅读我们关于如何微调SAM的详细指南。

SegGPT

SegGPT 是建立在 Painter 框架之上的通用分割模型，它允许模型使用最少的示例来适应各种任务。该模型适用于所有分割任务，例如实例、对象、语义和全景分割。在训练过程中，模型执行上下文着色，即使用随机着色方案（而不是特定颜色）通过学习上下文信息来识别片段，从而提高模型的通用性。

💡如果您想了解有关 SegGPT 的更多信息，请阅读 SegGPT：对上下文中的所有内容进行分段解释中的全面描述。

Microsoft’s Visual ChatGPT

Microsoft 的 Visual ChatGPT 扩展了基于文本的 ChatGPT 的功能，将图像包含在内，使其能够执行各种任务，包括视觉问答 (VQA)、图像编辑和图像生成。该系统使用提示管理器，可以将语言和视觉用户查询输入到 ChatGPT 模型中。 Visual ChatGPT 可以访问其他 VFM（例如 BLIP、Stable Diffusion、Pix2Pix 和 ControlNet）来执行视觉任务。然后，提示管理器将所有输入的视觉信号转换为 ChatGPT 可以理解的语言格式。因此，ChatGPT 模型能够生成基于文本和图像的响应。

下图说明了 Visual ChatGPT 架构：

在这里插入图片描述
视觉聊天GPT架构

视觉基础模型的应用

VFM 在各个行业都有广泛的应用。下面我们来探讨其中的一些：

医疗保健行业： VFM 可以改进医学图像分析，通过检测 X 射线、MRI 和 CTI 扫描以及其他医学图像中的问题来协助疾病检测和诊断。
网络安全系统： vfm可以提供复杂的观察，发现违规行为，并识别网络安全领域的潜在威胁。早期威胁检测使组织能够主动保护其数字资产。
汽车行业： VFM可以帮助自动驾驶汽车提高场景理解和行人识别，确保公共安全。
零售行业： VFM 可以通过基于图像的分析实现库存跟踪和货架补货自动化，并改进库存管理。
制造业： VFM 可以通过实时检测缺陷来提高视觉质量控制，减少修复时间并降低维护成本。

视觉基础模型的好处

VFM 可为各行业带来显着的经济效益。这些模型使用大量数据集进行细化和预训练，从而加快开发速度、使用更少的资源并提高人工智能驱动的应用程序的质量。

通过消除对耗时的手动特征工程和注释的需要，vfm可以缩短产品开发周期，允许组织减少其AI应用程序的上市时间。

vfm检测细微细节的能力可以通过实现精确的图像识别、自动识别物体和提出建议来改善用户体验。

vfm的迁移学习能力对企业人工智能系统尤其有益。通过迁移学习，企业可以对虚拟模型进行微调，以适应特定的任务，而无需从头开始训练整个模型。

在这里插入图片描述
迁移学习概述

可视化基础模型的挑战与考虑因素

虚拟财务模型具有强大的可视化理解能力，但仍是相对较新的模型，实践者在尝试使模型按预期运行时可能会遇到一些挑战。下面我们就来简要谈谈这些挑战。

解决视觉人工智能中与伦理、公平和偏见相关的问题

虽然 VFM 是一种智能模型，但有时也会因其学习的数据而产生偏差。如果数据中包含代表性不足的类别，这就会成为一个令人担忧的问题。例如，安防系统中的 VFM 可能只有在看到特定人群时才会发出警报。出现这种结果的原因可能是训练数据中的人员代表性有偏差。为了防止模型得出有偏差的结果，公司必须确保数据集是从不同来源收集的，并能公平地代表所有类别。

保护隐私、合规性和数据安全

可视化基础模型给数据安全带来了挑战，因为大型训练数据集可能会无意中暴露机密信息。通过强大的匿名化、加密和遵守 GDPR 等法规来保护数据至关重要。

为防止出现法律问题，必须遵守数据法规、知识产权和人工智能法规。在医疗保健和金融等行业，可解释的人工智能对于理解复杂的 VFM 预测至关重要。

💡有关保护隐私、合规性和数据安全的更多信息，请阅读《欧洲人工智能法案对人工智能开发者意味着什么》。

成本管理

虽然虚拟飞行器具有高速度和高性能，但根据数据和模型的规模，它们的训练成本也很高。例如，据报道，OpenAI 的 GPT-3 模型的训练成本为 460 万美元。根据 OpenAI 的另一份报告，到 2030 年，大型人工智能模型的培训成本预计将从 1 亿美元上升到 5 亿美元。这些数字表明，要创建大型图像模型，企业必须承担高昂的成本。他们必须在 GPU、服务器和数据管道等计算资源上投入巨资，这使得开发过程极具挑战性。此外，还必须考虑部署模型的推理成本。

微调可视化基础模型

VFM 是预先训练的模型，具有预定义的权重，这意味着它们能够理解复杂的视觉模式和特征。换句话说，企业无需从头开始训练。相反，他们可以使用少量额外的特定领域数据来快速调整模型的权重，并将其应用于独特的问题。

微调视觉模型的步骤

选择一个预训练的 VFMs 模型： 从 Visual GPT、Stable Diffusion、DALL-E 和 SAM 等流行模型中进行选择，因为这些模型在视觉任务中具有最先进的性能。每种模型都有适合不同任务的优势，因此应根据业务需求做出决定。
准备好微调培训数据： 调整图像大小、标注对象并确保数据质量。在大多数情况下，只需要少量标注数据，因为大多数 VFM都采用自监督方式从无标注数据中学习。
保持顶层不变： VFM是复杂的深度学习模型，有多个层次。每一层都会从输入数据中提取相关特征。为了进行微调，可冻结顶层，使可通用的图像特征保持不变。用自定义配置替换最终层，以便从输入数据中学习新特征。
逐步调整： 就像对乐器进行微调一样–逐步解冻图层，以适应任务的细节要求。使用剔除、权重衰减、调整学习率和批量归一化等技术来防止过度拟合并最大限度地提高性能。尝试使用阶跃衰减、余弦退火或单周期学习率等学习率计划，以确定最适合你的数据集的策略。根据验证损失或准确率实施早期停止，并尝试使用不同的超参数，如批量大小和优化器设置。
评估与测试： 训练完成后，在测试数据集上对微调后的 VFMs 模型进行评估，以准确衡量其性能。针对具体任务使用适当的评估指标，如交并集（IoU）和平均精度。如果结果不理想，请再次重复上述步骤。

处理不平衡数据集和变异性的策略

虽然使用预先训练的 VFM 可以加快模型开发和微调过程，但企业可能会面临数据限制，从而无法实现理想的模型性能。在微调 VFM 时，有几种技术可以克服数据障碍。

数据扩充： 通过数据扩充来增加类别平衡，即通过处理现有图像来增加数据集。
分层抽样： 通过在训练、验证和测试数据中公平地表示类来确保公正的评估。
重采样技术： 通过过采样和欠采样方法（如 SMOTE）解决类不平衡问题。
加权损失函数： 通过调整损失函数权重，在训练期间增强对代表性不足的类的关注。
集成方法： 通过组合来自多个模型的预测来提高性能和鲁棒性。
领域适应： 该技术通过利用从另一个相关源领域学习的知识来提高目标模型性能。

未来趋势与展望

在人工智能和计算机视觉领域，VFM是未来。以下是我们可以期待在未来几年看到的一些令人兴奋的趋势：

架构进步： VFM 将通过更先进的架构设计和优化技术进行改进。例如，VFM中的自校正模块可以通过从反馈中学习来不断提高模型对人类意图的理解。

鲁棒性和可解释性： VFM将变得更加可解释，人类将能够在做出预测之前了解模型的思维方式。这种能力将大大有助于识别偏见和不足。

多模态集成： 通过多模态集成，VFM 将能够处理不同类型的信息，例如将图片与文字、声音或来自传感器的信息相结合。

例如，多模态对话模型 JARVIS 扩展了传统聊天机器人的功能。Microsoft Research 的 JARVIS 通过结合其他几个生成式 AI 模型来增强 ChatGPT 的能力，使其能够同时处理多种数据类型，例如文本、图像、视频和音频。用户可以向 JARVIS 提出复杂的视觉问题，例如对高度抽象的图像进行详细描述。

与其他人工智能领域的协同作用： VFM的发展与人工智能其他领域的发展密切相关，形成了一个联盟，扩大了它们的整体影响。例如，与 NLP 系统配合使用的 VFM 可以增强图片字幕和视觉问答等应用程序。

Visual Foundation 模型 — 迈向 AGI 的一步

视觉基础模型是解锁通用人工智能（AGI）的有希望的一步。为了开发可应用于任何实际任务的算法，这些模型需要能够处理多模态数据，例如文本和图像。虽然 NLP 领域已经使用 LLM（例如 OpenAI 的 GPT-4）展示了 AGI 级别的性能，但由于解释视觉信号的复杂性，计算机视觉领域尚未实现类似的性能。然而，视觉基础模型的出现是朝着这个方向迈出的有希望的一步。

理想情况下，VFM将能够执行广泛的视觉语言任务，并准确地泛化到新的、看不见的环境中。或者，一个统一的平台可以合并不同的视觉基础模型来解决不同的视觉任务。SAM 和 SegGPT 等模型在解决多模态任务方面显示出前景。然而，要真正实现AGI，CV和NLP系统必须能够在全球范围内大规模运行。

“全知”项目展示了模型识别和理解这个世界上一切的能力。全视模型（ASM）在包含数百万张图像和语言提示的海量数据集上进行训练，使其能够使用统一的框架对许多语言和视觉任务进行泛化，同时保持高零样本性能。这些进步是朝着实现视觉语言通用智能迈出的一步。