Segment Anything Model (SAM)

Segment Anything

Segment Anything Model (SAM)

Segment Anything | Meta AI (segment-anything.com)

在这里插入图片描述

三部分组成:Image encoder、Prompt encoder以及Mask decoder。Prompt encoder和Mask decoder效率很高

Image encoder:为了实现可扩展性和强大的预训练方法,使用了 MAE [47] 预训练的 Vision Transformer (ViT) ,并进行了最小限度的调整以处理高分辨率输入 。该图像编码器每张图像只运行一次,可以在对模型进行提示之前应用。

Prompt Encoder:考虑了两组提示:稀疏提示(点、框、文本)和密集提示(掩码)。通过位置编码和每种提示类型的学习嵌入来表示点和框,并使用来自 CLIP的预训练文本编码器来处理自由形式的文本。密集提示(即掩码)则通过卷积进行嵌入,并与图像嵌入按元素相加。

Mask decoder:掩码解码器高效地将图像嵌入、提示嵌入和输出标记映射到掩码上。这一设计采用了修改版的 Transformer 解码器块 ,随后是动态掩码预测头。修改版解码器块使用提示自注意力和交叉注意力(从提示到图像嵌入和反之亦然)来更新所有嵌入。在运行两个块后,我们对图像嵌入进行上采样,并通过 MLP 将输出标记映射到动态线性分类器,该分类器随后计算每个图像位置的掩码前景概率。
在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值