Segment anything(SAM)论文及demo使用保姆级教程

最新推荐文章于 2025-04-03 09:00:00 发布

一头懒羊羊

最新推荐文章于 2025-04-03 09:00:00 发布

阅读量1.7w

点赞数 7

文章标签：计算机视觉深度学习人工智能

本文链接：https://blog.csdn.net/qwerkiller/article/details/130138425

版权

Meta在论文中发布了新模型Segment Anything Model(SAM)，声称说可以分割一切，可以在任何图像中分割任何物体，论文链接https://arxiv.org/abs/2304.02643

大概看了一遍论文和感受了Meta提供的demo模型，我觉得主要有两个爆点，首先是收集数据的方式，加入了主动学习的形式，因为他的数据集特别大，达到了十亿组数据，那么庞大的数据不可能全部去标注，然后会通过标注一部分然后剩下一部分其他人标，最后加上人工校验部分达到一个区域闭环的效果，当数据集足够庞大时，训练出的模型效果一定就会更好，而且像GPT一样不断更新学习新的数据，模型效果会更好。这个点来说是一个很工程性但是工作量非常大的工作。第二点是有一个prompt的概念，prompt简单来说就是类似于一个“提示词”的概念，其实跟GPT现在那么火和不断提升性能的原因一样。因为ChatGPT用户会给它输入一句话或者一段话来“提示”ChatGPT如何去给出最正确的答案，SAM也同样，在demo示例上SAM首先会自动分割图像中的所有内容，但是如果你输入一个提示词的话，比如一张图片你想让SAM分割出Cat或Dog这个提示词，SAM会自动在照片中猫或者狗周围绘制框并实现分割。

剩下具体的文章内容大家可以点击文章中的链

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一头懒羊羊

关注关注

7
点赞
踩
62

收藏

觉得还不错? 一键收藏
3
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

深度学习论文: SAM 2: Segment Anything in Images and Videos

mingo_敏

07-31

783

SAM 2架构的推出标志着SAM（Segmentation with A Million examples）技术从静态图像领域向动态视频领域的重大跨越。这一升级不仅保留了SAM在图像分割中的高效与准确性，还通过一系列创新设计，使得SAM 2能够灵活应对视频中的复杂场景与动态变化。在SAM 2中，用户可以通过点击、边界框或掩码等多样化的交互方式，在视频的任一给定帧中精确定义目标对象的范围。随后，一个轻量级的掩码解码器利用当前帧的图像特征与编码后的用户提示，迅速输出该帧的精细分割掩码。

Segment Anything——论文笔记

m_buddy的博客

05-29

2314

介绍：SAM是最近提出的一种通用分割大模型，其表现出了强大的零样本泛化能力，视觉感知模型的通用化又前进了一步。为了达到文章标题字面意义“segment anything”，那么就需要该算法具有强大的物体语义感知能力，在模型的设计阶段就不能对其所使用的类别进行假设，更类似于常见的交互式分割方法。像交互式分割这样的方法，在现有的大模型体系下提示的相关操作被描述为prompt。在SAM算法中就支持点、框、mask和文本四种不同的prompt，它的零样本泛化能力也是基于此。

3 条评论您还未登录，请先登录后发表或查看评论

从0到1全流程使用 segment-anything

碳学长的博客

03-03

5604

全流程使用 segment-anythin

【论文解读】Segment Anything 分割一切大模型（附论文地址）

最新发布

牧子川的博客

04-03

879

这是一项新的图像分割任务、模型和数据集。我们构建了迄今为止最大的分割数据集，包含超过10亿个掩码，覆盖了1100万张图像。该模型被设计和训练为可提示的（promptable），因此它能够通过提示工程零样本迁移到新的图像分布和任务。我们在众多任务上评估了它的能力，并发现它的零样本性能令人印象深刻——通常与或甚至优于以前的全监督结果。在自然语言处理（NLP）中，提示（prompt）的概念被用来指导语言模型生成特定任务的有效文本响应。

分割一切（SAM）论文详细阅读：Segment Anything

小小帅

02-17

2352

一个用于图像分割的新任务、模型和数据集。通过在数据收集循环中使用我们的高效模型，我们建立了迄今为止最大的分割数据集（迄今为止），其中包含 1100 万张授权图像上的 10 亿多个掩码，并且尊重隐私。该模型的设计和训练具有可提示性，因此它可以在新的图像分布和任务中进行零转移。我们在大量任务中评估了它的能力，发现它的零镜头性能令人印象深刻–通常可与之前的完全监督结果相媲美，甚至更胜一筹。

Segment Anything（论文解析）

qq_22583741的博客

10-17

412

我们介绍了“Segment Anything” (SA) 项目：这是一个新的任务、模型和数据集对于图像分割。使用我们高效的模型进行数据收集，我们构建了迄今为止最大的分割数据集（远远超过其他数据集），其中包含了超过10亿个掩膜，覆盖了1100万张经过许可和尊重隐私的图像。该模型被设计和训练为可提示的，因此可以实现零次学习，适用于新的图像分布和任务。我们在多个任务上评估了它的性能，并发现它的零次学习性能令人印象深刻，通常可以与先前的完全监督结果相竞争甚至更优越。

论文阅读 - Segment Anything

zjuPeco的博客

04-19

3730

本文是对SegmentAnything这篇论文的解读，适合各种基础的人群

【论文阅读笔记】Segment Anything

qq_46056318的博客

03-13

1936

分割任意物体2023年发表在ICCVPaperCodedemo我们介绍Segment Anything（SA）项目：用于图像分割的新任务、模型和数据集。在数据收集循环中使用我们的高效模型，我们构建了迄今为止最大的分割数据集，在1100万张许可和隐私保护图像上拥有超过10亿个掩码。该模型被设计和训练为可提示的，因此它能够在没有见过的图像数据分布和任务上进行零样本学习。我们评估了它在许多任务上的能力，发现它的零样本学习能力令人印象深刻-在某些情况下具有竞争力，甚至可能优于之前的完全监督结果。

论文解读：Segment Anything

weixin_50917576的博客

03-19

2167

我们介绍了任何片段(SA)项目:一个新的任务，模型和数据集的图像分割。在数据收集循环中使用我们的高效模型，我们建立了迄今为止(到目前为止)最大的分割数据集，在1100万张许可和尊重隐私的图像上拥有超过10亿个掩模(本文的mask相当于标注，一个mask相当于一个标签，如标注了一个细胞，标注了一只猪，这就是分别的不同的标签，即mask)。该模型被设计和训练为提示，因此它可以将零拍摄转移到新的图像分布和任务。

【论文精读】Segment Anything

HERODING23的博客

02-22

1793

被称为CV领域的GPT-3的工作，大一统了图像分割领域，实现了可提示及时分割，并且能够实现模糊感知，此外还构建了迄今最大的图像分割数据集，在1100万张授权的隐私图像上超过了10亿个mask。该工作中稿于ICCV 2023，其方法构建、实验设计以及写作格局都值得我们学习。PaperCodeFromICCV 2023本文提出SA项目，包含图像分割领域里新的任务、模型和数据集。作者构建了迄今最大的图像分割数据集，在1100万张授权的隐私图像上超过了10亿个mask。

【论文阅读】Segment Anything论文梳理

magic_ll的博客

03-05

2476

Abstract 我们介绍了Segment Anything（SA）项目：新的图像分割任务、模型和数据集。高效的数据循环采集，使我们建立了迄今为止最大的分割数据集，在1100万张图像中，共超过10亿个掩码。该模型被设计和训练为可提示的的 (promptable)，因此它可以将零样本(zero-shot) 迁移到新的图像分布和任务。我们评估了其在许多任务上的能力，发现其零样本迁移性能十分优秀，与之前的完全监督方法的结果相比，具有竞争力甚至优于这些结果。链接： https://segment-anythin

【图像分割】Segment Anything（Meta AI）论文解读

热门推荐

qq_45752541的博客

04-09

2万+

Segment Anything（SA）项目：一个图像分割新的任务、模型和数据集。建立了迄今为止最大的分割数据集，在11M许可和尊重隐私的图像上有超过1亿个mask。该模型的设计和训练是灵活的，因此它可以将zero-shot（零样本）转移到新的图像分布和任务。实验评估了它在许多任务上的能力，发现它的zero-shot性能令人印象深刻——通常与之前的完全监督结果竞争，甚至更好。

Segment Anything专题论文和代码汇总

如果想成为中心，那么就到中心去吧。

05-24

3341

分段任意事物模型（SAM）的成功证明了以数据为中心的机器学习的重要性。然而，由于标注遥感（RS）图像的困难和高成本，大量有价值的RS数据仍未被标记，特别是在像素级。在本研究中，我们利用SAM和现有的RS目标检测数据集，开发了一个有效的管道来生成一个大规模的RS分割数据集，称为SAMRS。SAMRS在大小上比现有的高分辨率RS分割数据集多出几个数量级，并提供了对象类别、位置和实例信息，可以用于语义分割、实例分割和对象检测，可以单独或组合。我们还从各个方面对SAMRS进行了全面的分析。

Segment Anything 论文总结和代码实现

qq_45981086的博客

05-04

2300

Segment Anything 项目是将图像分割提升到基础模型时代的一次尝试。

SAM论文笔记：A Stereo Attention Module for Stereo Image Super-Resolution

GracePro的博客

06-15

2485

作者：Xinyi Ying、 Yingqian Wang 、 Longguang Wang、 Weidong Sheng、 Wei An、Yulan Guo 论文被 IEEE Signal Processing Letters (SPL2020)期刊录用。原论文代码链接 1.1 stereo图像SR方法总结（1）StereoSR(CVPR2018) （2）：PASSRnet (CVPR2019) （3）：SPAMnet（AAAI2020）它将左右图的信息融合分为了两个阶段。拿从右到左的转换

[自注意力神经网络]Segment Anything(SAM)论文阅读

就随便写写....

04-07

8578

SAM网络学习笔记

Segment Anything Model (SAM)：论文解读（导读）

qq_42114376的博客

04-30

9382

前一段时间Meta 发布了号称能分割一切的大模型SAM。论文我看了下，算上参考文献有30多页，而且一半都是附录。今天给大家简单介绍下这篇论文的大概，后面有时间再逐步剖析这篇论文。

Segment Anything

论文学习笔记-《Fast Online Object Tracking and Segmentation- A Unifying Approach》

04-08

1313

将prompt learning 引入至视觉任务中，设计了图像分割任务预训练模型。提示词可以是位置点、矩形框、文本和掩码等。task: 为能避免歧义，对于每个prompt输出三个mask，分别对应整体、部分和更小的部分。model: 一个大的image enocder，不同类型prompt的encoder，然后mask decoder （包含自注意力和交叉注意力）预测。data: 三阶段生成了1.1B高质量masks的大规模数据集SA-1B。（1）人工自由标注，但无需给出label。

segment anything sam_vit_h

01-11

### 关于Segment Anything Model SAM_ViT_H 版本的资源和信息 #### 官方网站与研究论文对于深入探讨Segment Anything Model (SAM) 及其大规模数据集SA-1B，访问官方网站并查阅名为《Segment Anything》的研究论文能提供详尽资料[^1]。 #### 模型变体概述 SAM提供了多种预训练模型供不同应用场景选用。其中，`SAM_ViT_H`代表基于Vision Transformer架构的大规模（Huge）版本。这类模型因其强大的表征能力，在图像分割任务中表现出优异性能。 #### 获取途径为了获取特定版本如`SAM_ViT_H`的相关资源，建议直接前往官方GitHub仓库或PyTorch Hub页面下载对应权重文件以及查看详细的API文档说明。此外，社区论坛也是交流心得、解决问题的好地方。 ```python from segment_anything import sam_model_registry, SamPredictor sam_checkpoint = "path/to/sam_vit_h_4b8939.pth" model_type = "vit_h" device = "cuda" sam = sam_model_registry[model_type](checkpoint=sam_checkpoint) sam.to(device=device) predictor = SamPredictor(sam) ```