[paper阅读笔记][CVPR2024]VRP-SAM: SAM with Visual Reference Prompt

瘦小星

已于 2024-07-24 21:10:00 修改

阅读量1.1k

点赞数 30

分类专栏： paper阅读笔记文章标签： prompt 计算机视觉人工智能

于 2024-07-23 16:34:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Xysxx/article/details/140639711

版权

Paper要做什么任务？

利用带有语义标注的参考图像来指导分割目标图像中与参考图像中具有相同语义的物体或区域

任务的科学问题

分割出目标图像中与参考图像中已标注物体具有相同语义的物体

challenges

需要设计有效的VRP编码器来将视觉参考提示引入SAM框架，而有效的VRP编码器需要将注释的参考图像转化为合适的提示，并与目标图像进行交互；需要支持多种注释格式（point、box、mask、scribble）
解决用户熟悉度对提示有效性的影响
SAM本身缺乏对未知对象和跨领域情况的泛化能力，需要一种方法来增强这方面的性能

为什么会有challenge？

用户对目标对象的熟悉程度会显著影响提供特定提示的有效性
不同图像中目标对象的位置、大小和数量的变化需要为每个图像定制不同的提示，这会显著影响SAM的效率。

motivation是什么？

为了突破SAM面对复杂目标和陌生场景泛化性不强的限制

方法是什么？

方法

- 提出一个训练高效的视觉参考提示编码器，该编码器首先容纳各种粒度的视觉参考，然后直接将这些视觉参考编码为提示嵌入，而不是几何提示。然后将这些提示嵌入直接输入到SA

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

瘦小星 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。