【SAM】简单快速了解Segment Anything

masterleoo

于 2023-07-18 19:33:56 发布

阅读量367

点赞数

分类专栏：实例分割文章标签：计算机视觉深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_48086806/article/details/131794241

版权

实例分割专栏收录该内容

9 篇文章

订阅专栏

文章目录

1、概述

1、概述

SAM最大的特点就是在构建的10亿个掩码的1100万张图像的数据集上，将模型设计和训练为可提示的，从而实现强大的零样本迁移/分割能力，即在新的数据上不需要再进行训练/微调，就可以达到很准确的分割结果。也就是希望建立一个分割领域的基础大模型。
SAM模型最大的贡献就是实现了不需要进行迁移学习和重新训练就能实现适应所有的分割任务的能力。文章中从三个方面出发实现这个目标：

1）任务：重新设计了分割任务，提出了一种可提示prompt的分割任务：在给定任意分割提示的情况下返回有效的分割掩码（比如点、框、掩码、文本提示）
2）模型：根据任务，模型需要满足：（1）可以接收/支持灵活的提示prompt信息；（2）可以实时输出分割掩码来实现交互式分割；（3）模型架构为：一个image encoder（使用了预训练Vision Transformer）生成图像的特征/embedding；一个prompt encoder生成prompt embedding；最后用一个轻量级的mask decoder预测分割掩码；（4）对于prompt encoder：分为sparse（点、框、文本）和dense（masks），对于点和框，采用位置编码和learned emdeddings相加的方式，密集的masks是采用卷积的方式与image embeddings相加的方式；（5）mask 解码器：采用了transformer decoder block跟着一个动态masks预测头
3）数据：为了强大的泛化性能，模型需要在大量不同的数据上做训练。因此文中构建了一个“data engine”：模型与数据构成环形闭合，模型的预测能产生新的训练数据，训练数据又反过来进一步训练模型。在使用中训练，在训练中使用，最后越来越强（构建了10亿个掩码的1100万张图像的数据集）

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。