[paper阅读笔记][CVPR2024]VRP-SAM: SAM with Visual Reference Prompt

Paper要做什么任务?

利用带有语义标注的参考图像来指导分割目标图像中与参考图像中具有相同语义的物体或区域

任务的科学问题

分割出目标图像中与参考图像中已标注物体具有相同语义的物体

challenges
  • 需要设计有效的VRP编码器来将视觉参考提示引入SAM框架,而有效的VRP编码器需要将注释的参考图像转化为合适的提示,并与目标图像进行交互;需要支持多种注释格式(point、box、mask、scribble)
  • 解决用户熟悉度对提示有效性的影响
  • SAM本身缺乏对未知对象和跨领域情况的泛化能力,需要一种方法来增强这方面的性能
为什么会有challenge?
  • 用户对目标对象的熟悉程度会显著影响提供特定提示的有效性
  • 不同图像中目标对象的位置、大小和数量的变化需要为每个图像定制不同的提示,这会显著影响SAM的效率。
motivation是什么?

为了突破SAM面对复杂目标和陌生场景泛化性不强的限制

方法是什么?
  • 方法 
    • 提出一个训练高效的视觉参考提示编码器,该编码器首先容纳各种粒度的视觉参考,然后直接将这些视觉参考编码为提示嵌入,而不是几何提示。然后将这些提示嵌入直接输入到SAM的掩码解码器中,从而生成目标掩码,在不影响SAM原有功能的前提下,增加VPR Encoder进行视觉参考分割。
  • 框架图
    • 在SAM的基础上增加Visual Rrefernce Prompt Encoder

    • Visual Rrefernce Prompt Encoder分为Featrue Augmenter和Prompt Generator,Featrue Augmenter将参考标注分别编码为参考图像和目标图像的特征,用于区分前景和背景表征;Prompt Generator引入一组可学习的查询,再与参考特征、目标图像特征交互,生成可以用于SAM Mask Decoder的视觉参考提示嵌入。 

  • 结果
    • 带scribble注释的VRP - SAM比FP - Trans提高了2.8 %,带mask注释的VRP - SAM比DGPNet提高了5.8 %。这肯定了VRP - SAM的鲁棒泛化能力及其在领域迁移场景下的有效性。
实验是怎么做的?
  • 设置了哪些实验?
    • Comparison with other foundation models:将VRP-SAM与其他基于Painter、SegGPT和SAM的方法进行比较,并在coco-20数据集上进行评估。
    • Comparison with few-shot methods:将VRP-SAM与最先进的少样本分割方法进行比较,在coco-20和pascal-5数据集上实现了最先进的结果。
    • Comparison with Geometric Prompts:设计了视觉参考提示(VRP)和几何提示(GP)进行实验比较,验证了VRP相对于GP的优越性。
  • 消去实验都消去了什么?
    • Loss:比较使用Binary Cross-Entropy(BCE)和Dice loss对VRP-SAM的影响。结果表明,单独使用BCE或Dice loss时,VRP-SAM的性能相当。然而,当两种损失函数结合使用时,VRP-SAM表现最佳。
    • The number of query:增加查询数量与分割质量的提高呈正相关关系。然而,一旦查询数量超过50个,性能改善开始减弱。
    • Initialization of query:随机初始化优于其他策略(前景原型( FP ),背景原型( BP ),以及一个前景和背景各占一半的混合原型( half-FP & half - BP))
    • Number of VRPs:研究了视觉参考提示数量对分割结果的影响,结果显示,增加视觉参考提示数量可以显著提高分割性能。
创新点在哪里?
  • 引入了Visual Reference Prompt (VRP) 编码器,将其与SAM框架相融合,从而提出了VRP-SAM
  • VRP-SAM使得SAM能够利用视觉参考提示进行引导分割,从而提高了SAM模型的泛化能力和适应性。
  • VRP-SAM克服了SAM现有提示格式在复杂情况和大型数据集中的局限性,为模型的应用提供了更灵活的解决方案。

笔记
  • meta-learning(元学习):旨在使模型能够从不同任务或领域中快速学习和泛化。将任务分为两个层次:元训练(meta-training)和元测试(meta-testing)。在元训练阶段,模型通过学习如何快速适应多个任务或数据集,以及如何更新自身的参数以适应新任务。在元测试阶段,模型会应用在元训练中学到的策略和知识,从而在新任务上实现良好的性能。
  • Cross attention(交叉注意力):是一种注意力机制,常用于神经网络模型中,特别是在处理序列数据或图像之间的关联时。在交叉注意力中,模型通过将一个序列或图像中的每个元素与另一个序列或图像中的所有元素进行关联,从而实现不同序列或图像之间的信息传递和交互。两个输入:查询(query)和键值对(key-value pairs)。对于每个查询,模型计算它与键的相关性,并利用这些相关性权重对值进行加权求和,以生成输出。
  • Self attention(自注意力/内部注意力/自我注意力):允许模型在处理序列数据时根据序列内部的关联性自动地给不同位置的元素分配权重。输入序列会被映射为三个线性变换:查询(query)、键(key)和值(value)。然后,通过计算查询和键之间的相似度,得到每个查询与所有键的权重分布。最后,利用这些权重对值进行加权求和,以生成输出。

  • 29
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

瘦小星

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值