【读论文-01】EfficientSAM: Leveraged Masked Image Pretraining for Efficient Segment Anything

本文介绍了如何通过将SAM的ImageEncoder由ViT-H替换为轻量级的ViT-Small/Tiny,并采用知识蒸馏技术进行预训练和微调,以实现EfficientSAM,降低计算量和参数。
摘要由CSDN通过智能技术生成

在这里插入图片描述

1. 做了什么?

在这里插入图片描述
把SAM变成了更计算高效、参数更少的EfficientSAM。

2. 具体怎么做的?

2.1 模型结构

模型结构上来看:把SAM中的Image Encoder由ViT-H变成ViT-Small/Tiny。

下面是SAM的结构,可以看到Image Encoder很庞大,这也是SAM推理低效的原因。
在这里插入图片描述
图片来源:Sagment Anything
EfficientSAM的结构就是image encoder更加轻量化的SAM:
在这里插入图片描述

2.2. 如何训练Efficient SAM?

再进一步:lightweight image encoder如何训练?

具体framework如下:

在这里插入图片描述
可以看到分为两个阶段:预训练阶段(stage-1)和微调阶段(stage-2)

stage-1:(训练数据集为ImageNet-1K)

  1. Masked Auto Encoder(MAE)的掩码学习训练策略;
  2. 知识蒸馏,让EfficientSAM的lightweight image encoder去学习SAM的image encoder的latent feature。

stage-2:(训练数据集为SA-1B)

使用SA-1B在Segment Anything上微调。

3. 个人看法

EfficientSAM本质在做这么一件事:通过知识蒸馏,将SAM中的Image Encoder由ViT-H变为ViT-Tiny/Small,进而减少计算量和参数量。

  • 8
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SinHao22

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值