Segment Anything--翻译

HanC_A1

已于 2023-05-16 10:45:52 修改

阅读量585

点赞数 1

分类专栏： segment anything 文章标签：深度学习机器学习人工智能

于 2023-05-08 13:48:05 首次发布

原文链接：https://arxiv.org/pdf/2304.02643.pdf

版权

segment anything 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.附录A翻译链接
2.工程实现
在这里插入图片描述
（a）任务：可提示的分割（b）模型：分割一切事物(SAM) （c）数据：数据引擎(顶部)&
我们的目标是通过引入三个相互关联的组件来建立分割的基础模型：一个可提示的分割任务，一个分割模型（SAM），它支持数据注释并通过提示工程完成零样本迁移到一系列任务，以及一个用于收集SA-1B图像的数据引擎，我们拥有超过十亿mask的数据集。

摘要

我们将介绍一个分割一切事物(Segment Anything,SA)的工程：图像分割的新任务、模型和数据集。在数据收集中，我们利用有效的模型建立了迄今为止最大的分割数据集，其包含具有许可和尊重隐私的11M图像上超过1亿的分割掩码(masks)。由于模型的设计和训练是可提示的，因此模型可以零样本(zero-shot)的转移到新图像的分布和任务中。本文评估了在大量的任务中评估了所提出的模型，并且发现其在零样本的任务中具有很好性能，其与先验的完全监督学习的分割结果可以媲美甚至优于该结果。我们发布了SA工程和相应的数据集以促进计算机视觉技术的基础模型研究，地址：https://segment-anything.com

1.引言

在网络规模数据集上预先训练的大型语言模型以强大的零样本和少样本泛化能力正在推动NLP的发展。这些“基础模型”可以泛化到超出训练期间所见的任务和数据分布中。此功能通常通过提示工程实现，其中使用手工制作的文本来提示语言模型为当前的任务生成有效的文本响应。当使用来自网络的大量文本语料库进行缩放和训练时，这些模型的零样本和少样本性能与微调模型相比（在某些情况下甚至匹配）出奇地好。经验表明这种特性随着模型规模、数据集大小和总训练量而改善。
基础模型也在计算机视觉中进行了探索，尽管程度较小，其中也许最突出的示例是对齐来自网络的成对文本和图像，例如，CLIP [82] 和 ALIGN [55] 使用对比学习来训练文本和图像编码器以对齐两种模态。一旦经过训练，工程化的文本提示就可以零样本泛化到新的视觉概念和数据分布中。此类编码器还可以与其他模块有效组合，以完成具体的下游任务，例如图像生成（例如，DALL·E [83])。虽然在视觉和语言编码器方面已经取得了很大进展，但计算机视觉包括了超出这一范围的广泛问题，而且对于其中的许多问题，不存在丰富的训练数据。
在这项工作中，我们的目标是构建一个图像分割的基础模型。也就是说，我们寻求开发一个可提示的模型，并使用能够实现强大泛化的任务在广泛的数据集上对其进行预训练。有了这个模型，我们的目标是使用提示工程解决新数据分布上的一系列下游分割问题。
项目的成功取决于三个部分：任务、模型和数据。为了实现此工程，我们解决了以下有关图像分割的问题：
1.什么任务可以实现零样本泛化？
2.对应的模型架构是什么？
3. 哪些数据可以为这项任务和模型提供支持？
这些问题错综复杂，需要综合解决。我们首先定义了一个足够可以提供强大的预训练目标并实现广泛的下游应用的可提示分割任务。此任务需要一个支持灵活提示并且可以在允许提示交互式使用时实时输出分割掩码的模型。为了训练模型，我们需要多样化、大规模的数据源。不幸的是，没有用于分割的网络规模数据源；为了解决这个问题，我们构建了一个“数据引擎”，即，使用有效模型来协助数据收集，同时使用新收集的数据来改进模型。接下来我们介绍每个相互关联的部分，然后是我们构建的数据集和证明方法有效性的实验。
任务。 在 NLP 和最近的计算机视觉研究中，基础模型是一个很有发展前景的方向，它经常是通过“提示”技术对新数据集和任务进行零样本和少样本的迁移学习。受此启发，我们提出了可提示的分割任务，其目标是在给定任何分割提示的情况下返回有效的分割掩码（见图 1a）。提示仅指定要在图像中分割的内容，例如，提示可以包括标识对象的空间位置或文本信息。有效输出掩码的要求意味着即使提示不明确并且可能指代多个对象时（例如，衬衫上的一个点可能表示衬衫或穿着它的人），输出也应该是一个合理的掩码至少时其中的一个对象。我们使用可提示的分割任务作为预训练目标，并通过提示工程解决一般的下游分割任务。
模型。 可提示的分割任务和现实世界使用的目标对模型架构进行约束。特别是，该模型必须支持灵活的提示，同时需要实时计算掩码以允许交互式使用，并且必须具有模糊性。令人惊讶的是，我们发现一个满足了所有的三个约束的简单设计：一个强大的图像编码器获得图像映射，一个提示编码器获得提示映射，然后将这两个信息源被结合在一个轻量级的预测分割掩码的编码器中。我们将此模型称为分割任意模型或SAM（见图1b）。通过将SAM分离为图像编码器和快速提示编码器/掩码解码器，可以在不同提示下重复使用相同的图像映射（可以减少计算成本）。在给定图像映射的情况下，在web浏览器中提示编码器和掩码解码器利用提示预测掩码的时间为～50ms。我们主要是利用点、框和掩码提示以及自由形式的文本提示显示初始的分割结果。为了让SAM具有模糊性，我们设计其可以预测单个提示的多个掩码，从而使SAM能够自然地处理模糊性，例如衬衫对人的例子。
数据引擎。为了实现对新数据分布的强泛化，我们发现有必要在一组庞大而多样的掩码上训练SAM，超越现有的任何分割数据集。虽然基础模型的一种典型方法是在线获取数据[82]，但掩码自然不丰富，因此我们需要一种替代策略。我们的解决方案是建立一个“数据引擎”，即我们利用模型-数据集所建立的回路提升模型的精度和泛化性（见图1c）。我们的数据引擎有三个阶段: 辅助手动、半自动和全自动。第一阶段，SAM协助标注器进行标注，类似于经典的交互式分段设置。第二阶段，SAM可以通过提示可能的对象位置来自动生成对象子集的掩码，注释器专注于注释其余对象，有助于增加掩码的多样性。最后阶段，我们用前景点的规则网格提示SAM，平均每张图像产生约100个高质量遮罩。
数据集。 我们的最终数据集SA-1B包括具有许可和尊重隐私的11M图像上超过1亿的分割掩码(masks)（见图2）。SA-1B是使用我们的数据引擎的最后阶段完全自动收集的，其掩码比任何现有的分割数据集都多400倍[66，44，117，60]，正如我们广泛验证的那样，掩码具有高质量和多样性。除了将其用于训练SAM以使其鲁棒和泛化之外，我们希望SA-1B成为进行新基础模型研究的宝贵资源。
负责任的AI。 我们研究并发布了使用SA-1B和SAM时潜在的公平问题和偏见。SA-1B中的图像跨越了在地理和经济发展不同的国家，并且发现SAM在不同人群中表现相似。我们希望这将使我们的工作在现实世界的用例中更加适用。我们在附录中提供了模型和数据集。
实验。 我们广泛评估SAM。首先，我们发现SAM在具有多样性的23个新的分割数据集上从单个前景点可以获得高质量的掩模，通常仅略低于手动注释的真值。其次，在定性和定量两个评价指标中，我们使用提示工程在零样本迁移下的各种下游任务中都可以获得好的结果，包括边缘检测、对象建议生成、实例分割和文本到掩码预测的初步探索。其次，在定性和定量两个评价指标中，我们使用提示工程在零样本迁移下的各种下游任务中都有好的表现，包括边缘检测、对象建议生成、实例分割和文本到掩码预测的初步探索。这些结果表明，SAM可以与提示工程具有创新性的结合可以解决涉及SAM训练数据之外的目标和图像分布的各种任务。尽管如此，正如我们在第8节中所讨论的那样，仍有改进的空间。
发布我们发布SA-1B数据集用于研究目的，并在允许的开放许可证（Apache 2.0）下提供SAM，网址：https://segment-anything.com. 我们还通过在线的方式展示了SAM的能力。
在这里插入图片描述
图2：我们新引入的数据集SA-1B的具有叠加掩模的示例图像。SA-1B包含11M多样、高分辨率、具有许可和隐私保护的图像以及1.1B的高质量分割掩模。这些mask由SAM完全自动注释，正如我们通过人类评级和大量实验验证的那样，其具有高质量和多样性。我们根据每张图像的mask数量对图像进行分组以进行可视化（平均每张图像有～100个mask）。

2.分割任何事物

我们从NLP中获得启发，在NLP中，下一个单词预测(the next token prediction)任务用于基础模型预训练，并通过提示工程解决不同的下游任务[10]。为了建立分割的基础模型，我们的目标是定义具有类似功能的任务。
任务。 我们首先将提示的概念从NLP转换为分割，其中提示可以是一组前景/背景点、粗略框或掩码、自由格式文本，或者通常是任何指示在图像中分割什么的信息。那么，可提示的分割任务是在给定任何提示的情况下返回有效的分割掩码。“有效”掩码的要求只是意味着，即使提示不明确，并且可能涉及多个对象（例如，衬衫与人的例子，见图3），输出也应该是其中至少一个对象的合理掩码。这一要求类似于期望语言模型对不明确的提示输出合理的响应。我们选择此任务是因为它会产生一种自然的预训练算法和一种通过提示将零样本转迁移到下游分割任务的通用方法。
预训练。 可提示分割任务提出了一种自然的预训练算法，该算法模拟每个训练样本的提示序列（例如，点、框、掩码），并将模型的预测掩码与真值进行比较。我们将这种方法从交互式分割中进行了调整[10970]，尽管与交互式分割不同，交互式分割的目的是在足够的用户输入后最终预测有效的掩码，但我们的目的是始终预测任何提示的有效掩码，即使提示不明确。这确保了预训练的模型在涉及歧义的用例中是有效的，包括我们的数据引擎所需的自动注释。我们发现完成这项任务是具有挑战性的，需要专门的模型和训练损失选择，我们在第三节中对此进行了讨论。
零样本迁移。 直观地说，我们的预训练任务赋予了模型在推理时对任何提示做出适当响应的能力，因此下游任务可以通过设计适当的提示来解决。例如，如果有一个猫的边界框检测器，则可以通过向我们的模型提供预测猫的框作为提示来解决猫实例分割。一般来说，一系列实用的分割任务可以作为提示。除了自动数据集标记外，我们还在第7节中的实验中探索了五个不同的示例任务。
相关任务。 分割是一个广泛的领域：有交互式分割[57109]、边缘检测[3]、超级像素化[85]、对象建议生成[2]、前景分割[94]、语义分割[90]、实例分割[66]、全景分割[59]等。我们的可提示分割任务的目标是通过提示工程生成一个功能广泛的模型，该模型可以适应许多（尽管不是全部）现有和新的分割任务。这种能力是任务泛化的一种形式[26]。注意，这与之前关于多任务分割系统的工作不同。在多任务系统中，单个模型执行一组固定的任务，例如联合语义、实例和全景分割[114，19，54]，但训练和测试任务是相同的。我们工作中的一个重要区别是，为可提示分割训练的模型可以在推理时通过充当更大系统中的组件来执行新的不同任务，例如，为了执行实例分割，将可提示分割模型与现有的对象检测器相结合。
讨论。 提示和组合是功能强大的工具，使单个模型能够以可扩展的方式使用，有可能完成模型设计时未知的任务。这种方法类似于其他基础模型的使用方式，例如CLIP[82]是DALL·e[83]图像生成系统的文本图像对齐组件。我们预计与专门为固定任务集训练的系统相比，以提示工程技术为驱动的可组合系统设计将实现更广泛的应用程序。从组合的角度比较可提示分割和交互式分割也很有趣：虽然交互式分割模型是为人类用户设计的，但可提示分割训练的模型也可以组合成更大的算法系统，正如我们将要演示的那样。
在这里插入图片描述
图 3：每列显示 SAM 从单个模糊点提示（绿色圆圈）生成的 3 个有效掩码。

3.分割任何事物的模型

接下来，我们将介绍用于可提示分割的分段任意模型（SAM）。SAM有三个部分，如图4所示：图像编码器、灵活提示编码器和快速掩码解码器。我们建立在Transformer视觉模型[14，33，20，62]的基础上，对实时性能进行了权衡。我们在这里对这3个部分进行了详细描述，详细信息见附录A。
在这里插入图片描述图4：分割任意事物模型（SAM）整体结构图。大规模图像编码器输出图像映射，然后可以通过各种输入提示有效地查询图像映射生成对象掩码，从而提高预测效率。对于与多个对象对应的模糊提示，SAM可以输出多个有效掩码和相关的一致性分数。
图像编码器。 受可扩展性和强大的预训练方法的启发，我们使用了MAE[47]预训练的视觉Transformer（ViT）[33]，该转换器至少适用于处理高分辨率输入[62]。图像编码器每个图像运行一次，并且可以在提示模型之前应用。
提示编码器。 我们考虑两组提示：稀疏（点、框、文本）和密集（掩码）。我们通过位置编码[95]来表示点和框，这些位置编码与每个提示类型的学习映射相加，并使用CLIP[82]的现成文本编码器来表示自由格式文本。密集提示（即掩码）使用卷积映射，并与图像映射逐元素求和。
掩码解码器。 掩码解码器有效地将图像映射、提示映射和输出词映射到掩码。该设计受[14,20]的启发，对 Transformer 解码器块[103]进行了改进，后跟动态掩码预测头。我们的修改解码器块在两个方向上使用提示自注意和交叉注意（提示到图像映射，反之亦然）来更新所有映射。在运行两个块之后，我们对图像映射进行上采样，MLP将输出词映射到动态线性分类器，然后动态线性分类器计算每个图像位置的掩码前景概率
解决歧义。 对于一个输出，如果给出不明确的提示，模型将输出多个有效掩码。为了解决这个问题，我们修改了模型，以预测单个提示的多个输出掩码（见图3）。我们发现3个掩码输出足以解决最常见的情况（嵌套掩码通常最多有三个深度：整体、部分和子部分）。在训练过程中，我们只在掩码上反向传播最小的损失[15，45，64]。为了对掩码进行排序，该模型预测每个掩码的置信度得分（即估计的IoU）。
效率。 整个模型的设计很大程度上是出于效率的考虑。在网络浏览器中利用CPU运行给定预先计算的图像映射，提示编码器和掩码解码器，时间约为50ms。这种运行时间能使我们的模型能够无缝、实时地进行交互式提示。
**损失和训练。**我们使用的focal损失[65]和dice损失[73]的线性组合来监督掩模预测[14]。我们使用几何提示的混合来训练可提示的分割任务（文本提示见7.5节）。跟随[92，37]，我们通过在每个掩码的11轮中随机采样提示来模拟交互式设置，使SAM能够无缝集成到我们的数据引擎中。

4.分割任何事物的数据引擎

由于公开的分割掩码并不丰富，我们建立了一个数据引擎来收集SA-1B数据集，包含1.1亿个掩码。数据引擎有三个阶段：（1）模型辅助手动标注阶段，（2）混合了自动预测掩码和模型辅助标注的半自动阶段，以及（3）我们的模型在没有标注器输入的情况下生成掩码的全自动阶段。下一步，我们将详细介绍每一个部分。
辅助手动阶段。 在第一阶段中，类似于经典的交互式分割，一组专业注释人员通过使用SAM提供的基于浏览器的交互式分割工具点击前景/背景对象点来标记掩码，可以使用像素精确的“画笔”和“橡皮擦”工具来细化掩码。我们的模型辅助标注直接在浏览器中实时运行（使用预先计算的图像映射），从而实现真正的交互式体验。我们没有对标记对象施加语义约束，标注器可以自由地标记“东西”和“事物”[1]。我们建议标注器标记他们可以命名或描述的对象，但没有收集这些名称或描述。标注者被要求按照重要的顺序标记对象，并被鼓励在掩码需要30秒以上的时间进行注释后继续下一张图像。鼓励他们一旦一个掩膜花了30秒以上的时间进行注释，就继续下一个图像。
在这个阶段开始时，SAM是使用公开分割数据集进行训练的。在充分的数据标注之后，SAM仅使用新标注的掩码进行重新训练。随着更多掩膜的收集，图像编码器从ViT-B扩展到ViT-H，其他架构细节也在完善，总共对模型进行了6次再训练。随着模型的改进，每个掩膜的平均注释时间从34秒减少到14秒。我们发现14秒比COCO[66]的掩膜标注快6.5倍，并且仅比边界框标记慢2倍[76，71]。随着SAM的改进，每张图像的平均掩膜数量从20个增加到44个。总的来说，我们在这个阶段从120k张图像中收集了430万个掩膜。
半自动阶段。 在这个阶段，我们的目标是增加掩膜的多样性，以提高我们的模型分割任何事物的能力。为了将标注器集中在不太显眼的对象上，我们首先自动检测到确信的掩码。然后，我们给标注器预先填充这些掩码的图像，并要求他们标注任何其他未标注的对象。为了检测正确的掩码，我们使用通用的“对象”类别在所有第一阶段掩码上训练了一个边界框检测器[84]。在此阶段，我们在180k张图像中额外收集了590万个掩模（总共1020万个掩膜）。与第一阶段一样，我们定期根据新收集的数据对模型进行再训练（5次）。每个掩码的平均注释时间回到了34秒（不包括自动掩码），因为这些对象更难标记。每张图像的平均掩膜数量从44个增加到72个（包括自动标注的掩膜）。
全自动标注。 在最后阶段，标注是完全自动的。由于我们模型有两个主要部分的增强使得这是可行的。首先，在这个阶段开始时，我们收集了足够的掩膜以大大改进了模型，包括前一阶段的多样的掩膜。其次，到了这个阶段，我们已经研发了模糊感知模型，它使我们能够预测有效的掩膜，即使在模糊的情况下也是如此。具体来说，我们用32×32的规则网格提示模型，并为每个点预测一组可能对应于有效对象的掩膜。对于模糊感知模型，如果一个点位于部分或子部分上，我们的模型将返回子部分、部分和整个对象。IoU预测模块用于选择置信掩膜；此外，我们只识别和选择稳定的掩膜（如果在0.5−δ和0.5+δ处对概率图进行阈值处理会导致类似的掩膜，则我们认为掩膜是稳定的）。最后，在选择了置信高和稳定的掩膜后，我们应用非最大抑制（NMS）来过滤重复。为了进一步提高较小掩膜的质量，我们还处理了多个重叠的放大图像裁剪。有关此阶段的更多详细信息，请参见附录B。我们将全自掩膜生成应用于数据集中的所有1100万张图像，总共生成了11亿个高质量掩模。接下来，我们将描述并分析生成的数据集SA-1B。
在这里插入图片描述
图5：图像大小归一化掩膜中心分布

5.分割任何事物数据集

我们的数据集SA-1B由11M多样、高分辨率、具有许可和隐私保护的图像和使用数据引擎收集的1.1B高质量分割掩膜组成。我们将SA-1B与现有数据集进行了比较，并分析了掩膜质量和特性。我们发布了SA-1B数据集，以帮助未来计算机视觉基础模型的研究。我们注意到，SA-1B将在某些研究用途的有利许可协议下发布，并为研究人员提供保护。
图片。 我们从直接与摄影师合作的供应商处获得了一组 1100 万张新图像的许可。这些图像具有高分辨率（平均 3300×4950 像素），由此产生的数据大小可能会带来可访问性和存储方面的挑战。因此，我们将发布最短边设置为 1500 像素的下采样图像,即使在下采样之后，我们的图像的分辨率也比许多现有的视觉数据集高得多（例如，COCO [66] 图像约为 480×640 像素）。注意，当今大多数模型都在低得多的分辨率输入上运行。发布的图像中的面部和车辆牌照已经模糊。
掩膜。 我们的数据引擎产生了11亿个掩码，其中99.1%是完全自动生成的。因此，完全自动化标注的掩膜质量是至关重要。我们将它们直接与专业注释进行比较，并观察各种掩膜属性与公开的分割数据集的比较情况。正如下面的分析和第7节中的实验所证实的那样，主要结论是，完全自动化标注的掩膜质量高，对训练模型有效。受这些发现的启发，SA-1B只包括自动标注的掩膜。
掩膜质量。 为了估计掩膜质量，我们随机采样了500张图像（~5万个掩模），并要求我们的专业注释人员提高这些图像中所有掩膜的质量。注释人员使用我们的模型和像素精确的“画笔”和“橡皮擦”编辑工具来完成这项工作。这一过程产生了一对自动预测和专业校正的掩膜。我们计算了每对之间的IoU，发现94%的对的IoU大于90%（97%的对的IoU大于75%）。我们计算了每对之间的IoU，发现94%的对的IoU大于90%（97%的对的IoU大于75%）。为了进行比较，先前的工作估计标注器之间的一致性为85-91%IoU[44，60]。我们在第7节中的实验证实，相对于各种数据集，掩膜质量很高，在完全自动标注的掩膜上训练我们的模型几乎与使用数据引擎产生的掩膜一样好。
在这里插入图片描述
图6：数据集掩膜属性。图例引用了每个数据集中图像和掩膜的数量。注意，SA-1B比现有最大的分割数据集Open images[60]多了11倍的图像和400倍的掩膜。
图7：SA-1B图像地理分布。世界上大多数国家的SA-1B图像超过1000张，图像最多的三个国家来自世界不同地区。
掩膜属性。 在图5中，与现有最大的分割数据集相比，我们绘制了SA-1B中对象中心的空间分布。所有数据集中都存在常见的摄影师偏见。我们观察到，与分布最相似的两个数据集LVIS v1[44]和ADE20K[117]相比，SA-1B图像的覆盖范围更大，而COCO[66]和Open Images V5[60]具有更显著的中心偏差。在图6（图例）中，我们按大小比较了这些数据集。SA-1B比第二大的Open images多了11倍的图像和400倍的掩膜。平均而言，它每张图像的掩膜比Open Images多36倍。在这方面最接近的数据集ADE20K，每张图像的掩膜仍少了3.5倍。图6（左）绘制了掩膜的周边图像分布。接下来，我们看看图6（中间）中的图像相对掩膜大小（掩膜面积除以图像面积的平方根）。正如预期的那样，由于我们的数据集每个图像有更多的掩码，因此它也倾向于包括更大比例的中小型相对大小掩膜。最后，为了分析形状复杂性，计算图中的掩膜凹性（1减去掩膜面积除以掩膜凸包的面积），如图6最右边所示。由于形状复杂度与掩膜大小相关，我们首先通过从掩膜大小执行分层采样来控制数据集的掩膜大小分布。
我们观察到，我们的掩码的凹陷分布与其他数据集的凹陷分布大致相似。

6.分段任何事物RAI分析

接下来，我们通过调查使用SA-1B和SAM时潜在的公平问题和偏见，对我们的工作进行合理性的人工智能（RAI）分析。我们关注 SA-1B 的地理和收入分配以及 SAM 在受保护的人们属性中的公平性。我们还在附录F 中提供了数据集、数据标志和模型的介绍。
在这里插入图片描述
表1：具有代表的地理和收入的比较。SA-1B在欧洲、亚洲和大洋洲以及中等收入国家有更高的代表性。来自非洲、拉丁美洲和加勒比地区以及低收入国家的图像在所有数据集中的代表性都不足。
具有代表性的地理和收入。 我们推断国家图像是使用标准方法拍摄的（见附录C）。在图7中，我们可视化了SA-1B中每个国家所包含的图像数量（左）和图像最多的前50个国家（右）中的每个国家的图像计数。我们注意到，排名前三的国家来自世界不同地区。接下来，在表1中，我们比较了SA-1B、COCO[66]和Open Images[60]中具有代表的地理和收入的数据。SA-1B在欧洲、亚洲和大洋洲以及中等收入国家的图像比例要高得多。所有数据集都忽略了非洲和低收入国家。我们注意到，在SA-1B中，包括非洲在内的所有地区都至少有2800万个掩膜，比以前任何数据集的掩膜总数都多10倍。最后，我们观察到，每张图像（未显示）的平均掩膜数量在区域和收入之间相当一致（每张图像94-108个）。
在这里插入图片描述
表 2：SAM 根据感知的性别表现、年龄组和肤色对人们进行细分的性能。显示了 95% 的置信区间。在每个分组中，所有置信区间都重叠，除了年长者与中年人。
分割人群的公平性。 我们通过测量各组之间SAM的表现差异，研究了感知性别表现、感知年龄组和感知肤色的潜在公平问题。我们使用更具包容性的人群标注（MIAP）[87]数据集来进行性别表示和年龄，并使用专有的肤色数据集（见附录C）。我们的评估使用模拟交互式分割，随机采样1点和3点（见附录D）。表2（左上角）显示了感知性别表现的结果。我们注意到，女性在检测和分割数据集中的代表性不足[115]，但观察到SAM在各组中的表现相似。我们在表 2（左下角）中对再次对感知年龄的分析，注意到那些被认为更年轻和更年长的人在大规模数据集中被证明代表性不足 [110]。SAM 在那些被认为年龄较大的人身上表现最好（尽管置信区间很大）。最后，我们再对表2（右）中感知肤色的分析，注意到在大规模数据集中，肤色较浅的人被证明代表性过高，而肤色较深的人代表性不足[110]。由于 MIAP 不包含可感知的肤色注释，我们使用专有数据集，其中包含可感知的 Fitzpatrick 皮肤类型 [36] 的标注，范围从 1（最浅肤色）到 6（最深肤色）。虽然平均值有所不同，但我们没有发现各组之间的显著差异。我们相信我们的发现源于任务的本质，并承认当SAM被用作更大系统的组件时可能会出现偏差。最后，在附录C中，我们将分析扩展到服装分割，在那里我们发现了感知性别表现的偏见。

7.零样本迁移实验

在本节中，我们将介绍SAM的零样本迁移实验，即分割任意模型。我们考虑了五个任务，其中四个任务与用于训练SAM的可提示分割任务有很大不同。这些实验在训练期间没有看到的数据集和任务上评估SAM（我们在CLIP中使用“零样本迁移”[82]）。数据集可能包括新的图像分布，例如水下或以自我为中心的图像（例如图8），据我们所知，这些图像没有出现在SA-1B中。
我们的实验从测试可提示分割的核心目标开始：从任何提示生成有效的掩码。我们强调了单个前景点提示的挑战性场景，因为它比其他更具体的提示更有可能是模糊的。接下来，我们介绍了一系列实验，这些实验横跨低、中、高级别的图像理解，并大致平行于该领域的历史发展。具体而言，我们提示SAM（1）执行边缘检测，（2）对所有内容进行分割，即生成对象建议，（3）对检测到的对象进行分割，例如实例分割，以及（4）作为概念验证，从自由格式文本中分割对象。这四项任务与SAM接受训练并通过提示工程实施的可提示分割任务有很大不同。我们的实验以消融研究结束。
实施除非另有说明：（1）SAM使用MAE[47]预训练的ViT-H[33]图像编码器，（2）SAM在SA-1B上训练，注意该数据集仅包括数据引擎初始阶段自动生成的掩码。有关所有其他模型和训练细节，如超参数，请参阅附录A。

7.1.零样本单点有效掩膜评估

任务。 我们评估从单个前景点分割对象。由于一个点可以引用多个对象，因此此任务不适定。大多数数据集中的真值并没有枚举所有可能的掩膜，这可能会使自动度量变得不可靠。因此，我们用一项人类研究来补充标准的mIoU度量（即预测掩膜和真值之间的所有IoU的平均值），在该研究中，标注者对掩膜质量的评分从1（无意义）到10（像素完美）。有关更多详细信息，请参见附录D.1、附录E和附录G。默认情况下，我们根据交互式分割中的标准评估协议[92]，从真值的“中心”（掩膜内部距离变换的最大值）采样点。由于SAM能够预测多个掩膜，因此默认情况下，我们只评估模型最符合的掩膜。基线都是单掩膜方法。我们主要与RITM[92]进行比较，这是一种强大的交互式分割器，与其他强大的基线相比，它在我们的基准上表现最好[67，18]。
数据集。 我们使用了一套新编译的23个数据集，这些数据集具有不同的图像分布。图8列出了数据集，并显示了每个数据集的样本（更多细节请参见附录表7）。我们使用所有23个数据集进行mIoU评估。对于人类研究，我们使用图9b中列出的子集（由于此类研究的资源需求）。该子集包括SAM根据自动度量优于和低于RITM的两个数据集。

图 8：来自 23 个不同分割数据集的样本，用于评估 SAM 的零样本迁移能力。
在这里插入图片描述图 9：指向 23 个数据集的掩膜评估。 (a) SAM 和最强的单点分割器 RITM [92] 的平均 IoU。由于歧义，单个掩膜可能与真值不匹配；圆圈显示 SAM 的 3 个预测中最相关的“预测”结果。(b) 从 1（最差）到 10（最好）的对每个数据集的掩膜质量评级进行比较。所有方法都使用真值中心作为提示。(c, d) 具有不同点数的 mIoU。 SAM 以 1 个提示点明显优于之前的交互式分割器，并且与更多点是持平的。 1提示点处的低绝对 mIoU 是歧义的结果。
结果。 首先，我们使用 mIoU 对全套 23 个数据集进行自动评估。我们将图 9a 中的每个数据集结果与 RITM 进行了比较。
SAM 在 23 个数据集中的 16 个上产生了更高的结果，高达 ∼47 IoU。我们还提供了一个“预测”结果，其中最相关的 SAM 的 3 个掩码是通过将它们与地面实况进行比较来选择的，而不是选择最有信心的掩膜。这揭示了歧义对自动评估的影响。特别是，通过预测执行歧义消解，SAM 在所有数据集上都优于 RITM。
人类研究的结果如图 9b 所示。误差条是平均掩膜评级的 95% 置信区间（所有差异都很显着；有关详细信息，请参阅附录E）。我们观察到标注者对 SAM掩膜质量的评价始终高于最强基线 RITM。具有单个输出掩膜的 SAM 的消融、“模糊感知”版本一直具有较低的评级，但仍高于 RITM。
图 9c 显示了额外的基线，SimpleClick [67] 和 FocalClick [18]，它们获得比 RITM 和 SAM 更低的单点性能。随着点数从 1 增加到 9，我们观察到方法之间的差距减小。随着任务变得更容易，这是预料之中的；此外，SAM 并未针对非常高的 IoU 机制进行优化。最后，在图 9d 中，我们将默认的中心点采样替换为随机点采样。我们观察到 SAM 和基线之间的差距在扩大，并且 SAM 在任何一种采样方法下都能够取得可比的结果。
在这里插入图片描述
图 10：BSDS500 上的零样本迁移边缘预测。 SAM 没有接受过预测边缘图的训练，也没有在训练期间使用BSDS 图像或样本。

表 3：BSDS500 上的边缘检测的零样本迁移。

7.2. 零样本边缘检测

方法。 我们使用 BSDS500 [72, 3] 在边缘检测的经典低级任务上评估 SAM。我们使用自动掩膜生成简化版本。具体来说，我们用 16×16 的前景点规则网格提示 SAM，从而产生 768 个预测掩膜（每个点 3 个）。NMS 删除冗余掩膜。然后，使用无阈值掩膜概率图的 Sobel 滤波和标准轻量级后处理计算边缘图，包括边缘 NMS（详见附录D.2）。
结果。 我们在图 10 中可视化了代表性的边缘图（更多信息请参见图 15）。定性地，我们观察到即使 SAM 没有接受过边缘检测训练，它也会产生合理的边缘图。与真值相比，SAM 预测了更多的边缘，包括 BSDS500 中未标注的细节边缘。这种偏差在表 3 中得到了定量反映：50% 准确率 (R50) 的召回率很高，但以准确率为代价。 SAM 自然落后于学习 BSDS500 偏差的最先进方法，即抑制哪些边缘。尽管如此，与 HED [108]（也在 BSDS500 上训练）等开创性的深度学习方法相比，SAM 表现良好，并且明显优于之前的零样本迁移方法，尽管这已经过时了。

7.3. 零样本对象建议

方法。 接下来，我们评估 SAM 在对象建议生成的中级任务 [2, 102]。该任务在目标检测研究中发挥了重要作用，作为开创性系统的中间步骤（例如，[102、41、84]）。为了生成对象建议，我们运行了一个稍微修改过的自动掩膜生成版本，并将掩膜作为建议输出（详见附录D.3）。
在这里插入图片描述
表 4：LVIS v1 上的对象建议生成。 SAM 被应用为零样本，即它没有接受过对象建议生成的训练，也没有访问 LVIS 图像或真值。
我们在 LVIS v1 [44] 上计算标准平均召回率 (AR) 指标。我们专注于 LVIS，因为它的大量类别提出了具有挑战性的测试。我们与作为 ViTDet [62] 检测器（使用级联 Mask R-CNN [48、11] ViT-H）实现的强基线进行比较。我们注意到，这个“基线”对应于向游戏 AR 展示的“Detector Masquerading as Proposal generator”(DMP) 方法 [16]，使其成为一个真正苛刻的比较。
结果。 在表 4 中，我们不出所料地看到使用 ViTDet-H 的检测作为对象建议（即，游戏 AR 的 DMP 方法 [16]）总体上表现最好。然而，SAM 在几个指标上表现非常出色。值得注意的是，它在中型和大型物体以及稀有和常见物体上的表现优于 ViTDet-H。事实上，SAM 仅在小物体和频繁出现的物体上表现不如 ViTDet-H，而 ViTDet-H 可以很容易地学习 LVIS 特定的标注偏差，因为它是在 LVIS 上训练的，与 SAM 不同。我们还与 SAM 的消融歧义未知版本（“单挑”）进行了比较，后者在所有 AR 指标上的表现都明显差于 SAM。

7.4. 零样本实例分割

方法。 转向更高层次的视觉，我们使用 SAM 作为实例分割器的分割模块。实现很简单：我们运行对象检测器（之前使用的 ViTDet）并使用其输出框提示 SAM。这说明了在更大的系统中组合 SAM。
结果。 我们在表 5 中比较了 SAM 和 ViTDet 在 COCO 和 LVIS 上预测的掩膜。查看掩膜AP 指标，我们观察到两个数据集上的差距，其中 SAM 相当接近，但肯定落后于 ViTDet。
我们假设在 COCO 上，掩膜AP 间隙较大且真值质量相对较低（正如人类研究所证实的那样），ViTDet 学习了 COCO掩膜的特定偏差。 SAM 作为一种零样本方法，无法利用这些（通常不受欢迎的）偏差。 LVIS 数据集具有更高质量的真值，但仍然存在特定的特性（例如，掩膜不包含孔，它们是构造简单的多边形）和模态与非模态掩膜的偏差。同样，SAM 没有接受过学习这些偏差的训练，而 ViTDet 可以利用它们。
在这里插入图片描述
表 5：实例分割结果。 SAM 会提示 ViTDet 框进行零样本分割。完全监督的 ViTDet 优于 SAM，但在更高质量的 LVIS 掩膜上差距缩小了。有趣的是，根据人类评分，SAM 优于 ViTDet（见图 11）。

图11：我们对ViTDet和SAM的人类研究得出的掩膜质量评级分布，均应用于LVIS真值。我们还报告了LVIS和COCO真值质量。图例显示了评级平均值和95%置信区间。尽管SAM的AP较低（表5），但其评级高于ViTDet，这表明ViTDet利用了COCO和LVIS训练数据中的偏见。

HanC_A1

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Segment Anything--翻译

我们将介绍一个分割一切事物(Segment Anything,SA)的工程：图像分割的新任务、模型和数据集。在数据收集中，我们利用有效的模型建立了迄今为止最大的分割数据集，其包含具有许可和尊重隐私的11M图像上超过1亿的分割掩码(masks)。由于模型的设计和训练是可提示的，因此模型可以零样本(zero-shot)的转移到新图像的分布和任务中。本文评估了在大量的任务中评估了所提出的模型，并且发现其在零样本的任务中具有很好性能，其与先验的完全监督学习的分割结果可以媲美甚至优于该结果。
复制链接

扫一扫