SAM(Segment Anything )推荐你读的几个理由

官方网站:Segment Anything | Meta AI (segment-anything.com)

SAM(Segment Anything Model)是Meta AI在2023年4月6日公开的一种用于图像分割的基础模型。这篇论文的目标是设计一个可以在给定任何分割提示的基础上输出分割掩码的模型,极大地促进了计算机视觉基础模型的发展。在上面的官方网站中,演示了其强大的分割功能,强烈建议任何人点进去尝试一下,这可以帮助零基础的人快速了解其功能与意义。

具体来说,我个人觉得这篇论文有如下四大贡献:

1构建了一个“数据引擎”,产生了有史以来最大的分割数据集:使用SAM来协助收集数据并且使用新收集的数据来改进模型之间进行迭代,我把它这种行为调侃为“左脚踩右脚”。由此只要了最初少量的样本,就可以通过模型源源不断产生新数据,就产生了了有史以来最大的数据集——Segment Anything 1-Billion mask dataset(SA-1B)。该数据集包含了1100万张图像,总计超过10亿张掩码图,比任何现有的分割数据集都多400倍,并且掩码具有高质量和多样性,正是因为其数据丰富多样,因此可以通过零样本学习转移到新的图像分布和任务中。

2零样本泛化:SAM是一个基于提示进行分割的模型,其在最大的分割数据集上训练,实现了强大的零样本泛化。许多研究人员认为这是计算机视觉领域的GPT-3时刻,因为SAM已经学会了物体是什么的基本概念,甚至对未知的物体以及在不熟悉的场景(如水下、细胞显微镜)也能做到较好的效果,并展示了作为CV基本模型的巨大潜力。

3交互式分割:受最近ChatGPT的影响,计算机视觉领域专家也想借鉴自然语言处理(NLP)中上下文提示来提高模型精度。因此SAM设计了Prompt Encoder,用于将输入的图像和提示编码为向量表示,这里的提示可以分为两种:稀疏提示(如点、框、文本)和稠密提示(如掩码)。这与传统语义分割追求高效自动化恰恰相反,但这样通过利用提示信息,反而提高了分类精度。

4推理速度快:由于SAM采用了Transformer架构和大量的数据增强技术,它需要大量的计算资源和时间来训练。然而,一旦训练完成,SAM可以非常快速地进行推理,这得益于它非常轻便的Decoder。通常情况下,在一块CPU上仅需要50ms即可完成一张图片的推理,这相比于传统模型动辄需要比较高端的GPU相比是一大飞跃。

5面对对象的不确定性仍处理较好:当在识别要分割的对象时遇到不确定性时,SAM能够生成多个有效掩码。例如:当我们输入SAM中一个位置提示,这个位置指向的是一个人穿着外套上的小熊图案,那么SAM会依次输出小熊、外套以及整个人,这样就能满足不同任务的需求

总的来说,这篇论文提出的SAM是一个强大的图像分割基础模型,它具有出色的性能和灵活性,通过使用不同的提示和迁移学习,它可以应用于各种图像分割任务,如物体检测、语义分割和实例分割等。在SAM问世之前,对于中下游的从业者来说,完成一个几乎没有学术意义的分割任务至少需要大量的图像标注工作以及算力说得过去的机器。而在SAM问世之后,几乎可以以零标注甚至是零代码的方式实现最基础的分割任务,这是十分具有意义的。同时这篇论文提出的巨大数据集也可以作为一个基础数据集,供我们使用。

然而,由于其复杂性和计算需求,SAM目前主要适用于大型企业和研究机构,而不是个人或小型团队。并且虽然SAM的作者们在朝着Segment Everything的方向努力,但是真正的Segment Everything时代还没有来临。这是因为CV语义几乎可以无限细分,很难做到语义的绝对提取。例如,当前的图像识别、分割研究存在的一个问题是,当识别的粒度增加时,识别的确定性必然下降,也就是说,粒度和确定性是冲突的。举例说,在ImageNet中,“椅子”和“电视机”分别属于“家具”和“家电”两个类别,但是“按摩椅”属于“家具”还是“家电”,就很难判断——这就是语义粒度的增加引发的确定性的下降。因此我们应客观看待SAM,保持头脑清醒,产生自己的理解。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值