labelme软件中使用自动标记来分割,EfficientSAM

使用的时候在,labeme软件打开AI自动标记,会出现如下

AI model is already initialized: 'EfficientSam (accuracy)'

这个功能来源于一篇论文。 下面是你问deepseek。

询问https://github.com/yformer/EfficientSAM

,帮我解释,让我理解这篇论文是在干什么呢?有什么贡献?

以下是关于论文《EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything》的核心内容解析及其贡献总结:


研究背景与问题

Segment Anything Model (SAM) 凭借其强大的零样本迁移能力和通用性,已成为图像分割领域的标杆模型。然而,SAM 的计算成本极高,主要因其基于超大规模 Transformer 的图像编码器(如 ViT-H)和庞大的 SA-1B 数据集训练。这导致 SAM 在实际应用中面临推理速度慢、硬件资源需求高的问题114。例如,原 SAM 模型在单张 A100 GPU 上的吞吐量仅为每秒 1-2 张图像,参数规模高达 600M 以上,严重限制了其部署范围114。


方法创新

论文提出 EfficientSAM,通过 掩码图像预训练(SAMI)知识蒸馏 技术,构建轻量化的 SAM 模型,核心分为两阶段:

  1. SAMI 预训练阶段

    • 掩码自编码器(MAE)框架:利用 SAM 的图像编码器生成的特征作为重建目标,训练轻量级编码器(如 ViT-Tiny/Small)。具体而言,通过高掩码比率(如 75%)对图像分块进行遮挡,解码器基于未遮挡区域的特征重建被遮挡部分的 SAM 特征114。

    • 跨注意力解码器设计:仅对遮挡区域的特征进行重建,未遮挡区域的特征作为锚点,减少计算冗余1。

    • 损失函数:采用均方误差(MSE)损失直接对齐 SAM 特征,而非传统的余弦相似度,提升特征重建效果1。

  2. SAM 微调阶段

    • 将 SAMI 预训练的轻量级编码器与 SAM 的默认掩码解码器结合,在 SA-1B 数据集上进行微调,适配分割任务114。


主要贡献

  1. 轻量化 SAM 架构

    • 参数规模减少 20 倍(例如 EfficientSAM-S 仅 31.4M 参数),推理速度提升 20 倍,同时性能仅下降约 2 AP(如原 SAM 的 46.5 AP vs. EfficientSAM-S 的 44.4 AP)11415。

    • 在零样本实例分割任务(如 COCO/LVIS)中,性能显著优于其他轻量级 SAM 变体(如 MobileSAM、FastSAM),提升约 4 AP114。

  2. 高效的预训练范式 SAMI

    • 首次将掩码图像预训练与 SAM 特征蒸馏结合,通过重构 SAM 编码器的潜在特征,实现轻量模型的高效表征学习114。

    • 在图像分类、目标检测等任务中,SAMI 预训练方法超越 MAE、BEiT 等传统掩码预训练方法,例如在 ImageNet-1K 上实现 84.8% 的 Top-1 准确率1。

  3. 跨任务通用性验证

    • 在图像分类、实例分割、语义目标检测等多个视觉任务中验证了 EfficientSAM 的鲁棒性,证明其适用于需要实时分割的场景(如移动端应用)11415。


实验与结果

  • 零样本实例分割:在 COCO 数据集上,EfficientSAM 的吞吐量达到每秒 20 张图像(原 SAM 仅 1 张),AP 性能接近原模型(44.4 vs. 46.5)114。

  • 消融实验:验证了跨注意力解码器和 MSE 损失的有效性,例如仅使用遮挡区域解码可提升 3% 的分类准确率1。

  • 效率对比:EfficientSAM 在参数量、FLOPs 和推理速度上均显著优于 MobileSAM 和 FastSAM,同时保持更高的分割精度114。


应用场景与意义

EfficientSAM 的轻量化特性使其适用于:

  • 移动端实时分割:如摄影 App 中的物体抠图14。

  • 医学图像分析:结合领域知识蒸馏(如 ESP-MedSAM 的跨模态解码器设计),可进一步优化为专用医学分割模型15。

  • 机器人视觉:在强化学习任务中,结合 SAM 的分割能力提升环境感知泛化性17。


总结

该论文通过创新的掩码预训练和蒸馏策略,解决了 SAM 的计算瓶颈问题,为实际部署提供了高效、轻量的解决方案。其贡献不仅在于模型压缩,更在于为视觉基础模型的轻量化设计提供了通用框架11415。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值