[论文地址] [代码]
Abstract
Segment-Anything Model (SAM) 是图像分割的基础框架。 虽然它在典型场景中表现出显着的零样本泛化能力,但当应用于医学图像和遥感等专业领域时,其优势就会减弱。 为了解决这一限制,本文引入了 Conv-LoRA,这是一种简单而有效的参数高效微调方法。 通过将超轻量级卷积参数集成到 LoRA 中,Conv-LoRA 可以将与图像相关的归纳偏差注入到普通 ViT 编码器中,进一步强化 SAM 的局部先验假设。 值得注意的是,Conv-LoRA 不仅保留了 SAM 广泛的分割知识,而且还恢复了其学习高级图像语义的能力,而这种能力受到 SAM 前景-背景分割预训练的限制。 跨多个领域的不同基准的综合实验强调了 Conv-LoRA 在使 SAM 适应现实世界语义分割任务方面的优越性。
Introduction
Motivation
- SAM的backbone为Plain ViT,缺乏视觉相关的归纳偏置,因此直接完全finetune的效果有限。
- SAM的预训练本质是binary的(没有语义标签),缺乏语义信息。
Solution
- 将卷积操作引入LoRA中,在标签高效微调的同时引入视觉分割所需要的local信息。
- 引入MoE(Mixture-of-Expert)机制,在提升模型参数量的同时显著降低计算量
Method
本文所提出的Conv-LoRA结构如下所示

最低0.47元/天 解锁文章
368

被折叠的 条评论
为什么被折叠?



