【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM

呆呆的猫

已于 2023-07-19 14:26:40 修改

阅读量1.4k

点赞数

分类专栏：多模态文章标签： AIGC

于 2023-06-27 23:39:13 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiaoyangwm/article/details/131425692

版权

多模态专栏收录该内容

45 篇文章

订阅专栏

在这里插入图片描述

文章目录

论文：FASTER SEGMENT ANYTHING: TOWARDS LIGHTWEIGHT SAM FOR MOBILE APPLICATIONS

代码：https://github.com/ChaoningZhang/MobileSAM

出处：韩国庆熙大学

时间：2023.06.27

一、背景

Meta 提出的 SAM 以其出色的对任何感兴趣目标都可以进行分割的能力引起了广泛的关注，SAM 的结构如图 1 所示，包括两个部分：

ViT-based image encoder
prompt-guided mask decoder

SAM 是一个 label-free 的分割模型，可以和其他模型结合来进行进一步的下游任务，如 text-guided 分割、图像编辑等

在这里插入图片描述

在移动设备非常普及的情况下，很多图像编辑都是在移动端，但 SAM 的 image encoder 很大，所以设计一个对移动端友好的 SAM 是很迫切的。

故本文提出了 MobileSAM，主要就是设计了一个适用于移动端设备的轻量级 SAM

在这里插入图片描述

二、方法

按一般的想法来说，既然 image encoder 太大了，那么就缩小 image encoder

比如，将 ViT-H 使用 ViT-B 来替换，使用不同大小的 image encder 的模型参数量如表 3 所示：

在这里插入图片描述

从头训练一个 SAM（使用 ViT-L 或 ViT-B 做 image encoder）需要使用 128 个 GPU 训练数天，所以，重新训练代价也很大。

作者认为，优化的难度在于 image encoder 和 mask encoder 被耦合在一起了

所以，作者将 image encoder 和 mask encoder 进行了解耦：

首先，将 ViT-H 的知识蒸馏到 tiny ViT
然后，finetune mask encoder 来对齐蒸馏的小 image encoder

基于此，设计轻量级 SAM 的任务就转变为解耦蒸馏了，就很简单高效

MobileSAM 将 encoder 的参数降低了 100 倍，将整体参数降低了 60 倍

MobileSAM 推理速度：

单个图像推理速度大概 10ms（8ms 是 image encoder，2ms 是 mask encoder）

MobileSAM 和 FastSAM 的速度对比：

MobileSAM 比 FastSAM 小 7 倍，快 4 倍

2.1 耦合蒸馏

要实现对移动端友好的 SAM 的一个直观方法是重新训练一个 image encoder 小的 SAM，但训练代价太大了，所以可以考虑蒸馏的的方法，如图 2 左侧所示，是用最终大模型的 mask 来指导小模型的 mask。

在这里插入图片描述

2.2 从半蒸馏到解耦蒸馏

当直接用 mask 来指导蒸馏时，其难点在于 image encoder 和 mask decoder 是联系在一起的，两者是互相依赖的，所以可以：

image encoder：蒸馏
mask encoder：finetuned（因为 SAM 中的 mask encoder 本来就很小，故保持结构不变）

如图 2 右侧所示，这种也叫半解耦蒸馏（semi-coupled），对 image encoder 蒸馏的同时对 mask encoder 参数冻结，冻结能够使得 mask decoder 的效果不变，不会被 image encoder 效果的好坏影响。

但这种方法还会有问题，因为 prompt 是随机的，会导致 mask decoder 多变，难以优化

所以，本文的蒸馏方法：

完全解耦蒸馏
直接对 image embedding 进行蒸馏
完全将 image encoder 和 mask decoder 解耦开来了
这样也可以直接使用 MSE loss，不用再结合 focal 和 dice loss 了

在这里插入图片描述

解耦的蒸馏方法计算资源是耦合蒸馏方法的 1%，但却达到了 0.75 mIoU：

在这里插入图片描述

三、效果

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

呆呆的猫 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。