Paper要做什么任务?
利用带有语义标注的参考图像来指导分割目标图像中与参考图像中具有相同语义的物体或区域
任务的科学问题
分割出目标图像中与参考图像中已标注物体具有相同语义的物体
challenges
- 需要设计有效的VRP编码器来将视觉参考提示引入SAM框架,而有效的VRP编码器需要将注释的参考图像转化为合适的提示,并与目标图像进行交互;需要支持多种注释格式(point、box、mask、scribble)
- 解决用户熟悉度对提示有效性的影响
- SAM本身缺乏对未知对象和跨领域情况的泛化能力,需要一种方法来增强这方面的性能
为什么会有challenge?
- 用户对目标对象的熟悉程度会显著影响提供特定提示的有效性
- 不同图像中目标对象的位置、大小和数量的变化需要为每个图像定制不同的提示,这会显著影响SAM的效率。
motivation是什么?
为了突破SAM面对复杂目标和陌生场景泛化性不强的限制
方法是什么?
- 方法
-
- 提出一个训练高效的视觉参考提示编码器,该编码器首先容纳各种粒度的视觉参考,然后直接将这些视觉参考编码为提示嵌入,而不是几何提示。然后将这些提示嵌入直接输入到SA