SAM2无法分割一切?SAM2-Adapter:首次让SAM2适应一切!

作者 | Cver  编辑 | 极市平台

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心计算机视觉技术交流群

本文只做学术分享,如有侵权,联系删文

导读

 

SAM2-Adapter是一种新型适配方法,旨在充分利用Segment Anything 2(SAM2)模型的高级功能,以应对特定的下游分割任务。

2023年,Meta提出了SAM,在图像分割领域取得了突破的进展。但是,研究人员也发现了SAM在医学图像领域、伪装物体等领域效果不佳,因此,我们在SAM发布后两周提出了SAM-Adapter,它成功地将Segment Anything (SAM) 模型应用于特定的复杂任务中,如伪装物体检测、阴影识别和医学图像分割,展现出完美的表现。SAM-Adapter不仅为科研人员提供了强大的工具,还在学术界和工业界产生了深远的影响,成为处理高难度分割任务的首选方案。随着Segment Anything 2 (SAM2) 的出现,这一升级版的模型在架构和数据训练规模上进行了大幅度的增强,为更复杂的图像分割任务提供了新的可能性。SAM2的发布带来了更强大的基础能力,但也提出了新的挑战:如何将这些增强的功能应用于具体的下游任务中。令人振奋的是,我们在新工作中展示了,SAM-Adapter的微调方法在SAM2上再次取得了成功。通过SAM2-Adapter的引入,研究人员将SAM2的潜力充分释放,在各类复杂任务中继续实现最先进(SOTA)的性能。这一成果不仅延续了SAM-Adapter的影响力,还证明了其方法的通用性和强大效能,推动了图像分割技术的进一步发展。论文和代码均已开源。

f8a8348aed80b337b7da89b9d11ab96f.png

单位:魔芯科技、浙大等

项目页面:http://tianrun-chen.github.io/SAM-Adaptor

论文:https://arxiv.org/abs/2408.04579

开源代码(已开源):

https://github.com/tianrun-chen/SAM-Adapter-PyTorch

1. 研究背景

在人工智能(AI)的研究领域,基础模型的引入已经显著地重塑了研究的版图,特别是在这些模型经过大规模数据集训练后。最近,Segment Anything(SAM)模型因其在图像分割领域的杰出成就而受到广泛关注。然而,尽管SAM在图像分割任务中表现出色,但先前的研究也指出了它在处理某些复杂低层次结构分割任务时的性能限制。为了应对这些挑战,研究人员在SAM模型发布不久之后,便开发了SAM-Adapter,目的是通过增强SAM的功能来提升其在这些任务上的表现。SAM-Adapter的设计架构在下图中进行了详细展示。

8ac1045951ef13203c488613adf3c3dc.png

随着技术的发展,一个更为强大和通用的模型——Segment Anything 2 (SAM2)应运而生。SAM2在SAM的基础上对网络架构进行了优化,并在更广泛的视觉数据上进行了训练,引起了科研界的广泛关注。这引发了两个关键问题:

1. SAM在下游任务中遇到的挑战是否同样存在于SAM2?

2. 是否能够借鉴SAM-Adapter的成功经验,利用SAM2的先进预训练编码器和解码器,在这些任务中达到新的最前沿(SOTA)水平?

2. SAM2-Adapter

本研究的实验结果对这两个问题都给出了肯定的答案。尽管基础模型的固有局限性仍然存在,例如训练数据无法完全覆盖所有可能的场景,但通过引入SAM2-Adapter,研究者成功地在多个任务中实现了SOTA性能。SAM2-Adapter不仅继承了SAM-Adapter的核心优势,还引入了显著的改进,SAM2-Adapter有效地利用了SAM2的多分辨率和分层特性,实现了更为精确和鲁棒的分割效果。

20fe8d871fc014642019aebe039c5fca.png

SAM2-Adapter 的核心基于SAM2模型的强大图像编码器和掩码解码器组件。具体来说,利用从 SAM2 中预训练的 MAE Hiera 图像编码器,并冻结其权重以保留从大规模数据集预训练中学到的丰富视觉表示。此外,研究团队使用了原始 SAM2 模型的掩码解码器模块,初始化其权重为预训练的 SAM2 参数,然后在训练适配器过程中进行微调。这个方法没有为原始 SAM2 掩码解码器提供任何额外的提示作为输入。

与 SAM-Adapter 的成功方法类似,通过适配器学习并注入任务特定的知识F^i到网络中。这个方法采用提示的概念,这利用了基础模型(如 SAM2)已在大规模数据集上训练的事实。使用适当的提示来引入任务特定的知识可以增强模型在下游任务上的泛化能力,尤其是在标注数据稀缺的情况下。

这个方法旨在保持适配器设计的简单和高效。因此选择使用一个仅由两个 MLP 和一个激活函数组成的适配器。值得注意的是,与 SAM 不同,SAM2 的图像编码器具有四个层次的分层分辨率。因此,本方法初始化了四个不同的适配器,并将四个适配器插入每个阶段的不同层中。

3. 实验验证

在实验中,研究团队选择了两个具有挑战性的低级结构分割任务和一个医学成像任务来评估SAM2-Adapter的性能:伪装物体检测、阴影检测和息肉分割。

3.1 伪目标检测

研究团队首先评估了SAM在伪装物体检测这一具有挑战性的任务中的表现,这项任务的调整在于前景物体通常与视觉上相似的背景图案融合在一起。实验表明,SAM在该任务中表现不佳。如图所示,SAM无法检测到多个隐藏物体。定量结果进一步确认了这一点,表明SAM在所有评估指标上的表现显著低于现有的最先进方法,而SAM2本身的表现最低,无法产生任何有意义的结果。实验结果证明,通过引入SAM2-Adapter,这个方法显著提高了模型的性能。该方法成功识别了隐藏的物体。

49064f0e27bfbbe7574835988320d761.png9b819816ed12eb62f9c282d186531875.png

3.2 阴影检测

研究团队进一步评估了SAM在阴影检测中的表现。SAM2-Adapter的表现与SAM-Adapter一样出色,提供了可比的结果。

f74adac89325b1e92e2e194431c605c2.png

3.2 息肉分割

研究团队还展示了SAM2-Adapter在医学图像分割中的应用,特别是息肉分割。息肉在结肠镜检查过程中被识别并通过息肉切除术移除。准确快速地检测和移除息肉对于预防结直肠癌至关重要。在没有适当提示的情况下,SAM2模型无法产生有意义的结果。SAM2-Adapter解决了这个问题,并且优于原始的SAM-Adapter。根据定量分析和可视化结果,强调了SAM2-Adapter在提高息肉检测准确性和可靠性方面的有效性。

98696d059a61fb22c2892b4cd640f3a7.png 978abb6cae1d6ac3fda9fe8d844af859.png

4. 总结与展望

SAM2-Adapter是一种新型适配方法,旨在充分利用Segment Anything 2(SAM2)模型的高级功能,以应对特定的下游分割任务。基于SAM-Adapter的成功,SAM2-Adapter针对SAM2的多分辨率分层Transformer架构进行了优化,成功克服了SAM的局限性,在伪装物体检测、阴影检测和息肉分割等挑战性任务中实现了新的最先进(SOTA)性能。实验结果表明,SAM2-Adapter不仅保留了其前身的优势,如泛化性和可组合性,还通过与SAM2的高级架构无缝集成进一步增强了这些能力。这使得SAM2-Adapter在各种数据集和任务中设定了新的基准,超越了之前的方法。从SAM到SAM2的持续挑战反映了基础模型在多样化现实场景中的复杂性。尽管如此,SAM2-Adapter有效解决了这些问题,展示了其作为高质量分割工具的潜力,适用于多种应用领域。研究人员和工程师被鼓励采用SAM2结合SAM2-Adapter,以提升分割任务的性能,推动图像分割领域的发展。这项工作不仅扩展了SAM2的能力,还为未来的大规模预训练模型在专门应用中的创新奠定了基础。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!

01d54805ff6a2d5750c908900c3a6d04.jpeg

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

9628fde9f8fcfc479f8be405e3226709.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

2b2af0a495068b7ac03e9e8b2be2c00a.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

0c6a2d7b8894e9a5daca768462e00cf6.jpeg

④【自动驾驶之心】全平台矩阵

87a073cdde89f720dea5f2699204dd05.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
.系统是为两个不同的用户服务的,所以功能要分成两个部分,一部分给管理员用,一部分给普通用户用. 2.为了信息的安全,所有使用系统的人必须是在数据库里有信息记录的,那就需要注册,然后用用户名密码进行登录,没有这些的人不能登录. 3.系统的界面的设计要合理,排版要科学,色彩搭配要合理,让人看了会感觉到体验很好,可以一眼就了解系统的整体布局. 4.每一个功能之间,不同操作者之间的功能衔接要好,底层代码要逻辑清晰,保证各个功能的响应时间. 5.系统里边有很多的文本输入功能,文本框大小要合理,文字要大小适中,最好可以自动检测格式和敏感词,在文本框上面要做出相关说明. 6.网站要可以自适应,比如在电脑端和手机端分别打开系统,它的界面并不会发生错乱,会自动根据屏幕大小调整模块的布局。 基于b/s结构开发系统有诸多优势:b/s结构能够将许多不同语言、不同数据结构和不同操作系统等众多平台相结合,并在同一平台上实现多种功能模块。b/s结构更易于进行数据交换与共享。b/s结构提供了大量工具来帮助软件开发人员进行二次开发与维护工作,包括程序编译工具、应用程序编程工具和数据库访问技术等,它不但大大减少了软件开发人员的工作量,也使开发效率得到了提高。b/s结构上的应用程序和数据库之间有统一接口格式来进行通信与交互。进行通信和交互有以下优点: 2、灵活高效:用户可以在多个应用之间自由切换; 3、易于扩展:可以根据实际业务情况添加新功能模块,而不必对现有功能进行修改; 4、专业高效:系统操作简单方便; 5、节约成本:降低维护费用和运营费用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值