2024年最大的图像分割数据集是怎么来的？——图像分割SAM模型

最新推荐文章于 2024-06-08 10:59:03 发布

bluestaruuu

最新推荐文章于 2024-06-08 10:59:03 发布

阅读量1.9k

点赞数 33

文章标签：人工智能 python 算法计算机视觉图像处理

本文链接：https://blog.csdn.net/qq_52501948/article/details/137874376

版权

本文介绍了MetaAI的SegmentAnythingModel(SAM)，一种通过单击即可在图像中‘剪切’任何对象的AI模型，通过大规模预训练和零样本学习，实现了多返回对象的分割。文章详细探讨了模型技术原理、应用分析，尤其是在图像处理和医学图像领域的潜力和局限性。

摘要由CSDN通过智能技术生成

Segment Anything Model （SAM）：Meta AI 的一种新的 AI 模型，只需单击一下即可“剪切”任何图像中的任何对象。它已经在 1100 万张图像和 11 亿个掩码的数据集上进行了训练，在各种分割任务中具有很强的zero shot性能。

（3）零样本学习Zero-shot transfer

2. Segment Anything Model框架

一、引言

自然语言处理领域，基础模型通过零样本迁移学习快速使用到其他任务。

ChatGPT就是使用提示法进行交互的模型。几乎所有的文本都可以用来序列预测，因为序列预测不需要标签。

为什么计算机视觉没有泛用性强的零样本迁移学习模型？

图片资源没有标注分界框和分割掩码，创建基础模型是一个挑战。

SAM模型在数据收集循环中使用，建立庞大的分割数据集，在1100万张特许和尊重隐私的图像上有超过10亿个掩码。该模型的设计和训练是可提示的，因此可以zero-shot的方式转移到新的图像分布和任务。

SAM的目标是创建一个类似NLP领域的foundationmodel（例如GPT），它是一种使用prompt engineering机制的预训练模型并可以灵活地解决下游任务。

其中提示Prompt的类型：

• 一组前景、背景 标记点

• 粗略的 标记框 或者掩码

• 自由格式的文字

无论哪种情况，模型都应该足够灵活，输出分割掩码!

二、SAM模型技术原理

1.模型特色

（1）多返回对象

可提示分割任务是在给定任何提示的情况下返回有效的分割掩码。有效掩码的要求意味着即使提示不明确，并且可能涉及多个对象，输出也应该是其中至少一个对象的合理掩码。

每一列都是由SAM模型产生的3种有效输出

（2）预训练

可提示分割任务提出了一种自然的预训练算法，该算法模拟每个训练样本的prompt序列（例如，点、框、掩码），并将模型的掩码预测与GroundTruth进行比较。
与前人的交互式分割工作不同：

交互式分割的目的是在 足够的用户输入 （多次与用户交互并 不断优化 ）后最终预测有效的掩码

可提示分割的目的是始终预测 任何提示 的 有效掩码 ，即使提示不明确（与用户交互后产生多个预测结果）

（3）零样本学习Zero-shot transfer

预训练任务赋予了模型在推理时对任何提示做出适当响应的能力，因此下游任务可以通过设计适当的提示来解决。
例如，如果有一个目标检测任务识别出猫的边界框，则可以通过我们的模型使用框作为输入来解决猫实例分割任务

2. Segment Anything Model框架

这里对SAM的各个模块进行了一些中文解释，建议详情看图。

3.掩码质量评估

为了评估掩码质量，研究者随机抽取了500张图像（大约5万个掩码），在模型预测掩码的基础上对其进行专业矫正。

数据引擎：为了对庞大数据的图像进行掩码标注，作者开发了数据引擎。

模型标注数据：标注好的数据用来优化模型。以此循环，迭代优化模型以及数据质量。

数据开发分为以下阶段，

1、模型辅助手动标注：标注员细化掩码标签；

2、半自动标注阶段：为使标注者专注于不太突出的对象，首先SAM自动分割高置信度的掩码，然后向标注者展示预填充这些掩码的图像，并要求他们标注任何其他未标注的对象；

3、全自动阶段：已收集足够多的掩码来改进模型；已开发模糊感知模型，允许在有歧义的情况下预测有效的掩码。

4.应用分析

研究者表示SAM具有协助处理许多真实世界场景的能力。

对SAM在多种真实世界分割场景（例如，自然图像、农业、制造业、遥感和医疗健康场景）中的性能进行了评估。在像自然图像这样的常见场景中，它具有优秀的泛化能力;

而在低对比度的场景中，它的效果较差，而且在复杂场景中需要强大的知识。

三、SAM模型发展应用

SAM在图像处理领域的应用——软件场景

软件场景需要对图像编辑和修复进行操作，例如移除对象、填充对象和替换对象。

现有的修复工作，如利用DDPM模型做图像修复的repaint模型，需要对每个掩码进行精细的注释以达到良好的性能，这是一项劳动密集型的工作。

SAM可以通过简单的提示如点或框来生成准确的掩码，可以帮助辅助图像编辑场景。

Inpaint Anything算法：用户可以通过点击图像中的任何对象来选择它。对于对象移除，该流程由 SAM 和最先进的修复器组成；对于对象的填充和替换，第二步使用像 Stable Diffusion (SD) 这样的 AI 生成的内容模型。

参考文献：

《A Comprehensive Survey on Segment Anything Model for Vision and Beyond》

链接：

https://arxiv.org/pdf/2305.08196.pdf

SAM在图像处理领域的应用——视觉相关

随着 ViT 的出现，基于ViT的医学图像分割方法，在医学图像分割中取得了超越以往的性能。然而，这类网络面向的是特定的任务，缺乏对其他任务的泛化能力。

在医学图像分割任务中，SAM 的表现并不理想，主要原因在于训练数据的匮乏。尽管 SAM 在训练过程中构建了一个复杂而高效的数据引擎，但所收集到的病例数据量有限，且很少具备实际医疗应用价值。

一种解决方法是针对下游任务进行微调，自适应策略称为医疗 SAM 适配器采用一种称Adaption 的参数高效微调（ parameter-efficient fine-tuning，PEFT）技术，即将几个参数高效Adapter 模块插入到原始的基本模型中，然后只调整 Adapter 参数，同时冻结所有预先训练的参数。