SAM 2无法分割一切?SAM2-Adapter:首次让SAM 2在下游任务适应调优!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和图像分割】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

5126ccd86d9ebd99507687bf354e514d.png

2023年,Meta提出了SAM,在图像分割领域取得了突破的进展。但是,研究人员也发现了SAM在医学图像领域、伪装物体等领域效果不佳,因此,我们在SAM发布后两周提出了SAM-Adapter,它成功地将Segment Anything (SAM) 模型应用于特定的复杂任务中,如伪装物体检测、阴影识别和医学图像分割,展现出完美的表现。SAM-Adapter不仅为科研人员提供了强大的工具,还在学术界和工业界产生了深远的影响,成为处理高难度分割任务的首选方案。随着Segment Anything 2 (SAM2) 的出现,这一升级版的模型在架构和数据训练规模上进行了大幅度的增强,为更复杂的图像分割任务提供了新的可能性。SAM2的发布带来了更强大的基础能力,但也提出了新的挑战:如何将这些增强的功能应用于具体的下游任务中。令人振奋的是,我们在新工作中展示了,SAM-Adapter的微调方法在SAM2上再次取得了成功。通过SAM2-Adapter的引入,研究人员将SAM2的潜力充分释放,在各类复杂任务中继续实现最先进(SOTA)的性能。这一成果不仅延续了SAM-Adapter的影响力,还证明了其方法的通用性和强大效能,推动了图像分割技术的进一步发展。论文和代码均已开源。

05d0bc76deb9808fbfca1707639a5735.png

单位:魔芯科技、浙大等

项目页面:http://tianrun-chen.github.io/SAM-Adaptor

论文:https://arxiv.org/abs/2408.04579

开源代码(已开源):

https://github.com/tianrun-chen/SAM-Adapter-PyTorch

1. 研究背景

在人工智能(AI)的研究领域,基础模型的引入已经显著地重塑了研究的版图,特别是在这些模型经过大规模数据集训练后。最近,Segment Anything(SAM)模型因其在图像分割领域的杰出成就而受到广泛关注。然而,尽管SAM在图像分割任务中表现出色,但先前的研究也指出了它在处理某些复杂低层次结构分割任务时的性能限制。为了应对这些挑战,研究人员在SAM模型发布不久之后,便开发了SAM-Adapter,目的是通过增强SAM的功能来提升其在这些任务上的表现。SAM-Adapter的设计架构在下图中进行了详细展示。

f7f1e5785a6ea09b47456de34ec76d25.png    

随着技术的发展,一个更为强大和通用的模型——Segment Anything 2 (SAM2)应运而生。SAM2在SAM的基础上对网络架构进行了优化,并在更广泛的视觉数据上进行了训练,引起了科研界的广泛关注。这引发了两个关键问题:

1. SAM在下游任务中遇到的挑战是否同样存在于SAM2?

2. 是否能够借鉴SAM-Adapter的成功经验,利用SAM2的先进预训练编码器和解码器,在这些任务中达到新的最前沿(SOTA)水平?

2. SAM2-Adapter

本研究的实验结果对这两个问题都给出了肯定的答案。尽管基础模型的固有局限性仍然存在,例如训练数据无法完全覆盖所有可能的场景,但通过引入SAM2-Adapter,研究者成功地在多个任务中实现了SOTA性能。SAM2-Adapter不仅继承了SAM-Adapter的核心优势,还引入了显著的改进,SAM2-Adapter有效地利用了SAM2的多分辨率和分层特性,实现了更为精确和鲁棒的分割效果。

02d982b2263b9833eeb650184654d80d.png

SAM2-Adapter 的核心基于SAM2模型的强大图像编码器和掩码解码器组件。具体来说,利用从 SAM2 中预训练的 MAE Hiera 图像编码器,并冻结其权重以保留从大规模数据集预训练中学到的丰富视觉表示。此外,研究团队使用了原始 SAM2 模型的掩码解码器模块,初始化其权重为预训练的 SAM2 参数,然后在训练适配器过程中进行微调。这个方法没有为原始 SAM2 掩码解码器提供任何额外的提示作为输入。   

与 SAM-Adapter 的成功方法类似,通过适配器学习并注入任务特定的知识F^i到网络中。这个方法采用提示的概念,这利用了基础模型(如 SAM2)已在大规模数据集上训练的事实。使用适当的提示来引入任务特定的知识可以增强模型在下游任务上的泛化能力,尤其是在标注数据稀缺的情况下。

这个方法旨在保持适配器设计的简单和高效。因此选择使用一个仅由两个 MLP 和一个激活函数组成的适配器。值得注意的是,与 SAM 不同,SAM2 的图像编码器具有四个层次的分层分辨率。因此,本方法初始化了四个不同的适配器,并将四个适配器插入每个阶段的不同层中。

3. 实验验证

在实验中,研究团队选择了两个具有挑战性的低级结构分割任务和一个医学成像任务来评估SAM2-Adapter的性能:伪装物体检测、阴影检测和息肉分割。

3.1 伪目标检测  

研究团队首先评估了SAM在伪装物体检测这一具有挑战性的任务中的表现,这项任务的调整在于前景物体通常与视觉上相似的背景图案融合在一起。实验表明,SAM在该任务中表现不佳。如图所示,SAM无法检测到多个隐藏物体。定量结果进一步确认了这一点,表明SAM在所有评估指标上的表现显著低于现有的最先进方法,而SAM2本身的表现最低,无法产生任何有意义的结果。实验结果证明,通过引入SAM2-Adapter,这个方法显著提高了模型的性能。该方法成功识别了隐藏的物体。   

416a295bb29c360e80963d515eab048d.png

c137cc0e505c7cfa044dded4fb5005ce.png

3.2 阴影检测  

研究团队进一步评估了SAM在阴影检测中的表现。SAM2-Adapter的表现与SAM-Adapter一样出色,提供了可比的结果。   

50538fcb08f5bcac5dd2a147f570b72c.png

3.2 息肉分割  

研究团队还展示了SAM2-Adapter在医学图像分割中的应用,特别是息肉分割。息肉在结肠镜检查过程中被识别并通过息肉切除术移除。准确快速地检测和移除息肉对于预防结直肠癌至关重要。在没有适当提示的情况下,SAM2模型无法产生有意义的结果。SAM2-Adapter解决了这个问题,并且优于原始的SAM-Adapter。根据定量分析和可视化结果,强调了SAM2-Adapter在提高息肉检测准确性和可靠性方面的有效性。

51e8bc91bc27f958522f90bdf39ea608.png

580d318cf6f8c6ae301577d8ba7c14ff.png

4. 总结与展望

SAM2-Adapter是一种新型适配方法,旨在充分利用Segment Anything 2(SAM2)模型的高级功能,以应对特定的下游分割任务。基于SAM-Adapter的成功,SAM2-Adapter针对SAM2的多分辨率分层Transformer架构进行了优化,成功克服了SAM的局限性,在伪装物体检测、阴影检测和息肉分割等挑战性任务中实现了新的最先进(SOTA)性能。实验结果表明,SAM2-Adapter不仅保留了其前身的优势,如泛化性和可组合性,还通过与SAM2的高级架构无缝集成进一步增强了这些能力。这使得SAM2-Adapter在各种数据集和任务中设定了新的基准,超越了之前的方法。从SAM到SAM2的持续挑战反映了基础模型在多样化现实场景中的复杂性。尽管如此,SAM2-Adapter有效解决了这些问题,展示了其作为高质量分割工具的潜力,适用于多种应用领域。研究人员和工程师被鼓励采用SAM2结合SAM2-Adapter,以提升分割任务的性能,推动图像分割领域的发展。这项工作不仅扩展了SAM2的能力,还为未来的大规模预训练模型在专门应用中的创新奠定了基础。   

 
 

何恺明在MIT授课的课件PPT下载

 
 

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba、图像分割交流群成立

 
 
扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、图像分割微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、图像分割+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer111,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值