【SAM相关模型持续关注】

SAM相关模型持续关注



前言

从2023年4月份SAM模型发布后,各界对分割大模型有很强的关注,在后续的时间里也有不同的SAM变体和应用,在此处做一些记录,引用一些博文里面的内容。如有侵权请联系删除。
paperwithcode上关于SAM相关内容的总集:https://paperswithcode.com/method/sam 。


1、SAM

发表时间:2023/4
简称:SAM
论文全称:Segment Anything
论文链接:https://arxiv.org/pdf/2304.02643v1.pdf
代码库链接:https://segment-anything.com
摘要:
参考资料链接:


2、HQ-SAM

发表时间:2023/10
简称:HQ-SAM
论文全称:Segment Anything in High Quality
论文链接:https://arxiv.org/pdf/2306.01567v2.pdf
https://arxiv.org/pdf/2306.01567v1.pdf
代码库链接:https://github.com/SysCV/SAM-HQ
摘要:SAM 拥有强大的零样本能力和灵活的提示功能,尽管它已经通过11亿个掩膜进行了训练,但在很多情况下,特别是处理结构复杂的对象时,其掩膜预测质量还是有所欠缺。

为此,本文提出了HQ-SAM,为SAM赋予了准确分割任何对象的能力,同时保持了SAM的原始设计、效率和零样本泛化能力。作者设计重用并保留了SAM的预训练模型权重,同时仅引入了最小的额外参数和计算。与此同时还设计了一个可学习的高质量输出令牌,该令牌被注入到SAM的掩膜解码器中,负责预测高质量的遮罩。该方法不仅将其应用于掩膜解码器特征,而且首先将其与初期和最终的ViT特征融合,以改善细节。为了训练引入的可学习参数,本文构建了一个包含44K细粒度掩膜的数据集。HQ-SAM仅在这个引入的44k 掩膜数据集上进行训练,这在8个GPU上只需4小时。

最终,本文在9个不同的分割数据集中展示了HQ-SAM的有效性,这些数据集覆盖了不同的下游任务,其中7个任务在零样本迁移中进行了评估。
参考资料:苏黎世理工 & 港科大震撼力作 | HQ-SAM:SAM新秀-高质量分割一切模型


3、GenSAM

发表时间:2023/11
简称:GenSAM
论文全称:Relax Image-Specific Prompt Requirement in SAM: A Single Generic Prompt for Segmenting Camouflaged Objects
论文链接:https://arxiv.org/pdf/2312.07374.pdf
代码库链接:https://lwpyh.github.io/GenSAM
摘要:
为了解决SAM 需要手动提示才能准确分割出目标物体的问题,研究者们提出了一种无需训练的分割方法 GenSAM ,能够在只提供一个任务通用的文本提示的条件下,将任务下的所有无标注样本进行有效地分割。
参考资料链接:GenSAM开源:告别图像逐帧标注,一个提示词,即可实现批量标注(附论文及源码)


4、ClipSAM

发表时间:2024/1
简称:ClipSAM
论文全称:ClipSAM: CLIP and SAM Collaboration for Zero-Shot Anomaly Segmentation
论文链接:https://arxiv.org/pdf/2401.12665v2.pdf
代码库链接:https://github.com/Lszcoding/ClipSAM
摘要:
最近,基础模型如CLIP和SAM在零样本异常分割(ZSAS)任务上表现出色。然而,基于CLIP或SAM的ZSAS方法仍存在一些不可忽视的缺陷:
1、CLIP主要关注不同输入之间的全局特征对齐,导致对局部异常部分的分割不精确;
2、SAM倾向于生成大量冗余Mask,而没有适当的提示约束,导致复杂的后处理要求。
在这项工作中,作者创新性地提出了一种CLIP和SAM协作框架ClipSAM,用于ZSAS。ClipSAM的洞察是利用CLIP的语义理解能力进行异常定位和粗略分割,这进一步用作SAM的提示约束以改进异常分割结果。具体而言,作者引入了一个关键的统一多尺度跨模态交互(UMCI)模块,用于在CLIP的多个尺度上与视觉特征交互推理异常位置。然后,作者设计了一个新的多级Mask细化(MMR)模块,它利用位置信息作为多级提示,用于获取层次化的Mask并合并它们。
大量实验验证了ClipSAM的有效性,在MVTec-AD和VisA数据集上实现了最佳的分割性能。
参考资料链接:
复旦大学提出ClipSAM | 统一多尺度跨模态交互+多级Mask细化模块让语义分割性能达到最佳


5、PA-SAM

发表时间:2024/1
简称:PA-SAM
论文全称:PA-SAM: Prompt Adapter SAM for High-Quality Image Segmentation
论文链接:https://arxiv.org/pdf/2401.13051v1.pdf
代码库链接:https://github.com/xzz2/pa-sam
摘要:
尽管SAM在各种图像分割任务中表现出色,但它面临着在许多场景下预测质量挑战,尤其是在实际环境背景中。在这篇论文中,作者提出了一种名为Prompt Adapter Segment Anything Model(PA-SAM)的新型提示驱动 Adapter ,以增强原始SAM的分割Mask质量。

通过专门训练提示 Adapter ,PA-SAM从图像中提取详细信息,并在稀疏和密集提示 Level 上优化Mask解码器特征,从而提高SAM的分割性能,生成高质量的Mask。实验结果显示,PA-SAM在高质量、零样本和开放集分割方面超过了其他基于SAM的方法。
参考资料链接:
OPPO&上交大提出PA-SAM | 强大在细节,通过新型Prompt Adapter增强SAM的分割质量


6、EfficientViT-SAM

发表时间:2024/2
简称:EfficientViT-SAM
论文全称:EfficientViT-SAM: Accelerated Segment Anything Model Without Performance Loss
论文链接:https://arxiv.org/pdf/2402.05008v1.pdf
代码库链接:https://github.com/mit-han-lab/efficientvit
摘要:
作者提出了EfficientViT-SAM,这是一系列加速的SAM模型。在保留SAM轻量级的提示编码器和 Mask 解码器的同时,作者用EfficientViT替换了沉重的图像编码器。在训练方面,首先从SAM-ViT-H图像编码器向EfficientViT进行知识蒸馏。随后,在SA-1B数据集上进行端到端的训练。得益于EfficientViT的高效性和容量,EfficientViT-SAM在A100 GPU上实现了48.9X的TensorRT速度提升,而且没有牺牲性能。
参考资料链接:
快48.9倍 | 清华&MIT&英伟达开源EfficientViT-SAM,原地起飞

7、其他SAM

。。。


后续会持续关注SAM相关内容,若有遗漏请谅解。

  • 29
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值