文章目录
1、概述
- SAM最大的特点就是在构建的10亿个掩码的1100万张图像的数据集上,将模型设计和训练为可提示的,从而实现强大的零样本迁移/分割能力,即在新的数据上不需要再进行训练/微调,就可以达到很准确的分割结果。也就是希望建立一个分割领域的基础大模型。
- SAM模型最大的贡献就是实现了不需要进行迁移学习和重新训练就能实现适应所有的分割任务的能力。文章中从三个方面出发实现这个目标:
1)任务:重新设计了分割任务,提出了一种可提示prompt的分割任务:在给定任意分割提示的情况下返回有效的分割掩码(比如点、框、掩码、文本提示)
2)模型:根据任务,模型需要满足:(1)可以接收/支持灵活的提示prompt信息;(2)可以实时输出分割掩码来实现交互式分割;(3)模型架构为:一个image encoder(使用了预训练Vision Transformer)生成图像的特征/embedding;一个prompt encoder生成prompt embedding;最后用一个轻量级的mask decoder预测分割掩码;(4)对于prompt encoder:分为sparse(点、框、文本)和dense(masks),对于点和框,采用位置编码和learned emdeddings相加的方式,密集的masks是采用卷积的方式与image embeddings相加的方式;(5)mask 解码器:采用了transformer decoder block跟着一个动态masks预测头
3)数据:为了强大的泛化性能,模型需要在大量不同的数据上做训练。因此文中构建了一个“data engine”:模型与数据构成环形闭合,模型的预测能产生新的训练数据,训练数据又反过来进一步训练模型。在使用中训练,在训练中使用,最后越来越强(构建了10亿个掩码的1100万张图像的数据集)