Segment Anything
Segment Anything Model (SAM)
Segment Anything | Meta AI (segment-anything.com)
三部分组成:Image encoder、Prompt encoder以及Mask decoder。Prompt encoder和Mask decoder效率很高
Image encoder:为了实现可扩展性和强大的预训练方法,使用了 MAE [47] 预训练的 Vision Transformer (ViT) ,并进行了最小限度的调整以处理高分辨率输入 。该图像编码器每张图像只运行一次,可以在对模型进行提示之前应用。
Prompt Encoder:考虑了两组提示:稀疏提示(点、框、文本)和密集提示(掩码)。通过位置编码和每种提示类型的学习嵌入来表示点和框,并使用来自 CLIP的预训练文本编码器来处理自由形式的文本。密集提示(即掩码)则通过卷积进行嵌入,并与图像嵌入按元素相加。
Mask decoder:掩码解码器高效地将图像嵌入、提示嵌入和输出标记映射到掩码上。这一设计采用了修改版的 Transformer 解码器块 ,随后是动态掩码预测头。修改版解码器块使用提示自注意力和交叉注意力(从提示到图像嵌入和反之亦然)来更新所有嵌入。在运行两个块后,我们对图像嵌入进行上采样,并通过 MLP 将输出标记映射到动态线性分类器,该分类器随后计算每个图像位置的掩码前景概率。