【SAM】简单快速了解Segment Anything

文章目录

1、概述

  • SAM最大的特点就是在构建的10亿个掩码的1100万张图像的数据集上,将模型设计和训练为可提示的,从而实现强大的零样本迁移/分割能力,即在新的数据上不需要再进行训练/微调,就可以达到很准确的分割结果。也就是希望建立一个分割领域的基础大模型。
  • SAM模型最大的贡献就是实现了不需要进行迁移学习和重新训练就能实现适应所有的分割任务的能力。文章中从三个方面出发实现这个目标:

1)任务:重新设计了分割任务,提出了一种可提示prompt的分割任务:在给定任意分割提示的情况下返回有效的分割掩码(比如点、框、掩码、文本提示)
2)模型:根据任务,模型需要满足:(1)可以接收/支持灵活的提示prompt信息;(2)可以实时输出分割掩码来实现交互式分割;(3)模型架构为:一个image encoder(使用了预训练Vision Transformer)生成图像的特征/embedding;一个prompt encoder生成prompt embedding;最后用一个轻量级的mask decoder预测分割掩码;(4)对于prompt encoder:分为sparse(点、框、文本)和dense(masks),对于点和框,采用位置编码和learned emdeddings相加的方式,密集的masks是采用卷积的方式与image embeddings相加的方式;(5)mask 解码器:采用了transformer decoder block跟着一个动态masks预测头
3)数据:为了强大的泛化性能,模型需要在大量不同的数据上做训练。因此文中构建了一个“data engine”:模型与数据构成环形闭合,模型的预测能产生新的训练数据,训练数据又反过来进一步训练模型。在使用中训练,在训练中使用,最后越来越强(构建了10亿个掩码的1100万张图像的数据集)

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值