【多模态】15、MobileSAM | 首个专为移动端设计的更快的 SAM

在这里插入图片描述

论文:FASTER SEGMENT ANYTHING: TOWARDS LIGHTWEIGHT SAM FOR MOBILE APPLICATIONS

代码:https://github.com/ChaoningZhang/MobileSAM

出处:韩国庆熙大学

时间:2023.06.27

一、背景

Meta 提出的 SAM 以其出色的对任何感兴趣目标都可以进行分割的能力引起了广泛的关注,SAM 的结构如图 1 所示,包括两个部分:

  • ViT-based image encoder
  • prompt-guided mask decoder

SAM 是一个 label-free 的分割模型,可以和其他模型结合来进行进一步的下游任务,如 text-guided 分割、图像编辑等

在这里插入图片描述

在移动设备非常普及的情况下,很多图像编辑都是在移动端,但 SAM 的 image encoder 很大,所以设计一个对移动端友好的 SAM 是很迫切的。

故本文提出了 MobileSAM,主要就是设计了一个适用于移动端设备的轻量级 SAM

在这里插入图片描述

二、方法

按一般的想法来说,既然 image encoder 太大了,那么就缩小 image encoder

比如,将 ViT-H 使用 ViT-B 来替换,使用不同大小的 image encder 的模型参数量如表 3 所示:

在这里插入图片描述

从头训练一个 SAM(使用 ViT-L 或 ViT-B 做 image encoder)需要使用 128 个 GPU 训练数天,所以,重新训练代价也很大。

作者认为,优化的难度在于 image encoder 和 mask encoder 被耦合在一起了

所以,作者将 image encoder 和 mask encoder 进行了解耦:

  • 首先,将 ViT-H 的知识蒸馏到 tiny ViT
  • 然后,finetune mask encoder 来对齐蒸馏的小 image encoder

基于此,设计轻量级 SAM 的任务就转变为解耦蒸馏了,就很简单高效

MobileSAM 将 encoder 的参数降低了 100 倍,将整体参数降低了 60 倍

MobileSAM 推理速度:

  • 单个图像推理速度大概 10ms(8ms 是 image encoder,2ms 是 mask encoder)

MobileSAM 和 FastSAM 的速度对比:

  • MobileSAM 比 FastSAM 小 7 倍,快 4 倍

2.1 耦合蒸馏

要实现对移动端友好的 SAM 的一个直观方法是重新训练一个 image encoder 小的 SAM,但训练代价太大了,所以可以考虑蒸馏的的方法,如图 2 左侧所示,是用最终大模型的 mask 来指导小模型的 mask。

在这里插入图片描述

2.2 从半蒸馏到解耦蒸馏

当直接用 mask 来指导蒸馏时,其难点在于 image encoder 和 mask decoder 是联系在一起的,两者是互相依赖的,所以可以:

  • image encoder:蒸馏
  • mask encoder:finetuned(因为 SAM 中的 mask encoder 本来就很小,故保持结构不变)

如图 2 右侧所示,这种也叫半解耦蒸馏(semi-coupled),对 image encoder 蒸馏的同时对 mask encoder 参数冻结,冻结能够使得 mask decoder 的效果不变,不会被 image encoder 效果的好坏影响。

但这种方法还会有问题,因为 prompt 是随机的,会导致 mask decoder 多变,难以优化

所以,本文的蒸馏方法:

  • 完全解耦蒸馏
  • 直接对 image embedding 进行蒸馏
  • 完全将 image encoder 和 mask decoder 解耦开来了
  • 这样也可以直接使用 MSE loss,不用再结合 focal 和 dice loss 了

在这里插入图片描述

解耦的蒸馏方法计算资源是耦合蒸馏方法的 1%,但却达到了 0.75 mIoU:

在这里插入图片描述

三、效果

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
基于多模态的无人机自然交互设计是指通过结合多种感知模态(如视觉、声音、触觉等)和交互方式(如语音、手势、触摸等),使无人机与人类之间的交互加自然和直观。这种设计可以提高用户体验,降低操作难度,并且使得无人机在各种环境和场景下都能够有效地与人类进行交互。 在基于多模态的无人机自然交互设计中,可以采用以下几种方式: 1. 视觉感知:无人机可以通过摄像头或其他传感器获取周围环境的图像信息,从而实现对目标物体的识别、跟踪和定位。用户可以通过观察无人机的图像来了解其当前状态和周围环境。 2. 声音感知:无人机可以通过麦克风或其他声音传感器获取周围环境的声音信息,从而实现对声音指令的识别和理解。用户可以通过语音指令来控制无人机的起飞、降落、前进等动作。 3. 触觉反馈:无人机可以通过震动器或其他触觉传感器向用户提供触觉反馈,使用户能够感知到无人机的状态和动作。例如,当无人机遇到障碍物时,可以通过震动来提醒用户。 4. 手势识别:无人机可以通过摄像头或其他传感器对用户的手势进行识别和理解,从而实现对手势指令的响应。用户可以通过手势来控制无人机的飞行方向、高度等参数。 5. 触摸交互:无人机可以配备触摸屏或其他触摸传感器,用户可以通过触摸屏上的界面来控制无人机的各种功能和动作。 通过以上多种感知模态和交互方式的结合,基于多模态的无人机自然交互设计可以使用户与无人机之间的交互加直观、灵活和自然。这种设计可以提高用户的操作效率和满意度,同时也可以扩展无人机在各种应用场景下的应用范围。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

呆呆的猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值