论文链接:https://arxiv.org/abs/2312.06736
代码链接:无
目的:轻量化SAM,使其可以在移动设备上运行
方法:
- 换成更简单、容易部署的架构–以卷积为主的UNet
- prompt 早融合到输入当中:点编码为圆圈作为第4通道,框编码为框作为第5通道。此外点prompt也用到晚融合(像原始SAM那样)
- 考虑到用户不知道需要通过点击得到mask,这里先通过saliency detection 得到 saliency map中采样出点prompt得到初步分割掩码。
- 为了得到整体分割而不是SAM的细粒度分割效果,一方面通过对训练数据的掩码进行合并得到更大的掩码,另一方面在训练过程引入背景异常点来引入噪声,降低模型对异常点的敏感程度。
结果:
- 更快且更好(比mobileSAM,fastSAM)