【SAM相关模型持续关注】

最新推荐文章于 2025-04-06 05:06:23 发布

wang151038606

最新推荐文章于 2025-04-06 05:06:23 发布

阅读量1.2k

点赞数 29

分类专栏：模型文章标签：深度学习 transformer

本文链接：https://blog.csdn.net/MITA1/article/details/136195310

版权

模型专栏收录该内容

1 篇文章

订阅专栏

SAM相关模型持续关注

文章目录

SAM相关模型持续关注
前言
1、SAM
2、HQ-SAM
3、GenSAM
4、ClipSAM
5、PA-SAM
6、EfficientViT-SAM
7、其他SAM

前言

从2023年4月份SAM模型发布后，各界对分割大模型有很强的关注，在后续的时间里也有不同的SAM变体和应用，在此处做一些记录，引用一些博文里面的内容。如有侵权请联系删除。
paperwithcode上关于SAM相关内容的总集：https://paperswithcode.com/method/sam 。

1、SAM

发表时间：2023/4
简称：SAM
论文全称：Segment Anything
论文链接：https://arxiv.org/pdf/2304.02643v1.pdf
代码库链接：https://segment-anything.com
摘要：
参考资料链接：

2、HQ-SAM

发表时间：2023/10
简称：HQ-SAM
论文全称：Segment Anything in High Quality
论文链接：https://arxiv.org/pdf/2306.01567v2.pdf
https://arxiv.org/pdf/2306.01567v1.pdf
代码库链接：https://github.com/SysCV/SAM-HQ
摘要：SAM 拥有强大的零样本能力和灵活的提示功能，尽管它已经通过11亿个掩膜进行了训练，但在很多情况下，特别是处理结构复杂的对象时，其掩膜预测质量还是有所欠缺。

为此，本文提出了HQ-SAM，为SAM赋予了准确分割任何对象的能力，同时保持了SAM的原始设计、效率和零样本泛化能力。作者设计重用并保留了SAM的预训练模型权重，同时仅引入了最小的额外参数和计算。与此同时还设计了一个可学习的高质量输出令牌，该令牌被注入到SAM的掩膜解码器中，负责预测高质量的遮罩。该方法不仅将其应用于掩膜解码器特征，而且首先将其与初期和最终的ViT特征融合，以改善细节。为了训练引入的可学习参数，本文构建了一个包含44K细粒度掩膜的数据集。HQ-SAM仅在这个引入的44k 掩膜数据集上进行训练，这在8个GPU上只需4小时。

最终，本文在9个不同的分割数据集中展示了HQ-SAM的有效性，这些数据集覆盖了不同的下游任务，其中7个任务在零样本迁移中进行了评估。
参考资料：苏黎世理工 & 港科大震撼力作 | HQ-SAM：SAM新秀-高质量分割一切模型

3、GenSAM

发表时间：2023/11
简称：GenSAM
论文全称：Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects
论文链接：https://arxiv.org/pdf/2312.07374.pdf
代码库链接：https://lwpyh.github.io/GenSAM
摘要：
为了解决SAM 需要手动提示才能准确分割出目标物体的问题，研究者们提出了一种无需训练的分割方法 GenSAM ，能够在只提供一个任务通用的文本提示的条件下，将任务下的所有无标注样本进行有效地分割。
参考资料链接：GenSAM开源：告别图像逐帧标注，一个提示词，即可实现批量标注（附论文及源码）

4、ClipSAM

发表时间：2024/1
简称：ClipSAM
论文全称：ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation
论文链接：https://arxiv.org/pdf/2401.12665v2.pdf
代码库链接：https://github.com/Lszcoding/ClipSAM
摘要：
最近，基础模型如CLIP和SAM在零样本异常分割（ZSAS）任务上表现出色。然而，基于CLIP或SAM的ZSAS方法仍存在一些不可忽视的缺陷：
1、CLIP主要关注不同输入之间的全局特征对齐，导致对局部异常部分的分割不精确；
2、SAM倾向于生成大量冗余Mask，而没有适当的提示约束，导致复杂的后处理要求。
在这项工作中，作者创新性地提出了一种CLIP和SAM协作框架ClipSAM，用于ZSAS。ClipSAM的洞察是利用CLIP的语义理解能力进行异常定位和粗略分割，这进一步用作SAM的提示约束以改进异常分割结果。具体而言，作者引入了一个关键的统一多尺度跨模态交互（UMCI）模块，用于在CLIP的多个尺度上与视觉特征交互推理异常位置。然后，作者设计了一个新的多级Mask细化（MMR）模块，它利用位置信息作为多级提示，用于获取层次化的Mask并合并它们。
大量实验验证了ClipSAM的有效性，在MVTec-AD和VisA数据集上实现了最佳的分割性能。
参考资料链接：
复旦大学提出ClipSAM | 统一多尺度跨模态交互+多级Mask细化模块让语义分割性能达到最佳

5、PA-SAM

发表时间：2024/1
简称：PA-SAM
论文全称：PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation
论文链接：https://arxiv.org/pdf/2401.13051v1.pdf
代码库链接：https://github.com/xzz2/pa-sam
摘要：
尽管SAM在各种图像分割任务中表现出色，但它面临着在许多场景下预测质量挑战，尤其是在实际环境背景中。在这篇论文中，作者提出了一种名为Prompt Adapter Segment Anything Model（PA-SAM）的新型提示驱动 Adapter ，以增强原始SAM的分割Mask质量。

通过专门训练提示 Adapter ，PA-SAM从图像中提取详细信息，并在稀疏和密集提示 Level 上优化Mask解码器特征，从而提高SAM的分割性能，生成高质量的Mask。实验结果显示，PA-SAM在高质量、零样本和开放集分割方面超过了其他基于SAM的方法。
参考资料链接：
OPPO&上交大提出PA-SAM | 强大在细节，通过新型Prompt Adapter增强SAM的分割质量

6、EfficientViT-SAM

发表时间：2024/2
简称：EfficientViT-SAM
论文全称：EfficientViT-SAM: Accelerated Segment Anything Model Without Performance Loss
论文链接：https://arxiv.org/pdf/2402.05008v1.pdf
代码库链接：https://github.com/mit-han-lab/efficientvit
摘要：
作者提出了EfficientViT-SAM，这是一系列加速的SAM模型。在保留SAM轻量级的提示编码器和 Mask 解码器的同时，作者用EfficientViT替换了沉重的图像编码器。在训练方面，首先从SAM-ViT-H图像编码器向EfficientViT进行知识蒸馏。随后，在SA-1B数据集上进行端到端的训练。得益于EfficientViT的高效性和容量，EfficientViT-SAM在A100 GPU上实现了48.9X的TensorRT速度提升，而且没有牺牲性能。
参考资料链接：
快48.9倍 | 清华&MIT&英伟达开源EfficientViT-SAM，原地起飞