Meta发布「分割一切」AI 模型，CV或迎来GPT-3时刻

Meta推出Segment Anything Model (SAM)，这是一个能够对任何图像或视频中的物体进行分割的基础模型，无需针对特定任务进行专业化调整或额外训练数据。SAM的出现标志着计算机视觉领域的进步，其零样本迁移能力类似于GPT-4。同时，Meta还发布了SA-1B，有史以来最大的分割数据集。模型和数据的开源性将推动CV研究的进一步发展。

摘要由CSDN通过智能技术生成

demo地址：

Segment Anything | Meta AI

Meta 表示，这是第一个致力于图像分割的基础模型。自此，CV 也走上了「做一个统一某个（某些？全部？）任务的全能模型」的道路。

在此之前，分割作为计算机视觉的核心任务，已经得到广泛应用。但是，为特定任务创建准确的分割模型通常需要技术专家进行高度专业化的工作，此外，该项任务还需要大量的领域标注数据，种种因素限制了图像分割的进一步发展。

Meta 在论文中发布的新模型名叫 Segment Anything Model (SAM) 。他们在博客中介绍说，「SAM 已经学会了关于物体的一般概念，并且它可以为任何图像或视频中的任何物体生成 mask，甚至包括在训练过程中没有遇到过的物体和图像类型。SAM 足够通用，可以涵盖广泛的用例，并且可以在新的图像『领域』上即开即用，无需额外的训练。」在深度学习领域，这种能力通常被称为零样本迁移，这也是 GPT-4 震惊世人的一大原因。

论文地址：https://arxiv.org/abs/2304.02643
项目地址：https://github.com/facebookresearch/segment-anything
Demo 地址：https://segment-anything.com/

除了模型，Meta 还发布了一个图像注释数据集 Segment Anything 1-Billion (SA-1B)，据称这是有史以来最大的分割数据集。该数据集可用于研究目的，并且 Segment Anything Model 在开放许可 (Apache 2.0) 下可用。

我们先来看看效果。如下面动图所示，SAM 能很好的自动分割图像中的所有内容：

SAM 还能根据提示词进行图像分割。例如输入 Cat 这个提示词，SAM 会在照片中的几只猫周围绘制框并实现分割：

SAM 还能用交互式点和框的方式进行提示：

此外，SAM 还能为不明确的提示生成多个有效掩码：

英伟达人工智能科学家 Jim Fan 表示：「对于 Meta 的这项研究，我认为是计算机视觉领域的 GPT-3 时刻之一。它已经了解了物体的一般概念，即使对于未知对象、不熟悉的场景（例如水下图像）和模棱两可的情况下也能进行很好的图像分割。最重要的是，模型和数据都是开源的。恕我直言，Segment-Anything 已经把所有事情（分割）都做的很好了。」