[论文阅读] Convolution Meets LoRA: Parameter Efficient Finetuning for Segment Anything Model

[论文地址] [代码]

Abstract

Segment-Anything Model (SAM) 是图像分割的基础框架。 虽然它在典型场景中表现出显着的零样本泛化能力,但当应用于医学图像和遥感等专业领域时,其优势就会减弱。 为了解决这一限制,本文引入了 Conv-LoRA,这是一种简单而有效的参数高效微调方法。 通过将超轻量级卷积参数集成到 LoRA 中,Conv-LoRA 可以将与图像相关的归纳偏差注入到普通 ViT 编码器中,进一步强化 SAM 的局部先验假设。 值得注意的是,Conv-LoRA 不仅保留了 SAM 广泛的分割知识,而且还恢复了其学习高级图像语义的能力,而这种能力受到 SAM 前景-背景分割预训练的限制。 跨多个领域的不同基准的综合实验强调了 Conv-LoRA 在使 SAM 适应现实世界语义分割任务方面的优越性。


Introduction

Motivation

  • SAM的backbone为Plain ViT,缺乏视觉相关的归纳偏置,因此直接完全finetune的效果有限。
  • SAM的预训练本质是binary的(没有语义标签),缺乏语义信息。

Solution

  • 将卷积操作引入LoRA中,在标签高效微调的同时引入视觉分割所需要的local信息。
  • 引入MoE(Mixture-of-Expert)机制,在提升模型参数量的同时显著降低计算量

Method

本文所提出的Conv-LoRA结构如下所示࿱

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值