图像分割-RSPrompter

最新推荐文章于 2025-04-10 10:36:26 发布

学海一叶

最新推荐文章于 2025-04-10 10:36:26 发布

阅读量2.3k

点赞数 30

分类专栏：图像分割文章标签：计算机视觉人工智能深度学习图像分割 LLM

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/long11350/article/details/137434144

版权

文章目录

前言

《RSPrompter: Learning to prompt for remote sensing instance segmentation based on visual foundation model》，2024

本篇论文提出了目前SAM存在的一些问题：

SAM严重依赖于人工先验（点、框、mask）且分割结果是没有标记类别的，如下图，单点、两点、边框提示的不同分割结果
SAM在遥感图像分割任务中的性能在很大程度上仍未被探索和证明

1. 自动化提示器

针对问题1，不由得想到：如果能够自动生成多个与类别相关的提示，SAM 的解码器就能够产生带有类别标签的多个实例级掩码。

论文提出训练一个自动化的提示器（RSPrompter），能够处理来自测试集的任何图像，同时对对象进行定位，并推断它们的语义类别和实例掩码。最后通过RSPrompter+SAM，实现分割任务的自动化。

这个过程存在两个主要挑战：（i）类别相关的提示从哪里来？（ii）应选择哪种类型的提示作为掩膜解码器的输入

RSPrompter的结算流程如下：

通过冻结权重的SAM image encoder生成多个中间特征图 $F_i$ （K×h×w×c）和最终的图像嵌入 $F_{img}$ （h×w×c）
$F_i$ 通过多尺度特征增强器（结构和原理见1.1）逐步处理获得多尺度特征 $F_{ms}$
将多尺度特征 $F_{ms}$ 输入RSPrompter（结构和原理见1.2）以获得多组提示语（ $F^m_{sparse} ∈ R^{K_p×c}, m ∈ \{1, · · · , Np\}$ ）和它们的语义类别（ $c_m ∈ R^c, m ∈ \{1, · · · , Np\}$ ），其中， $K_p$ 定义了每次掩码生成的提示嵌入次数； $N_p$ 是提示的个数，用来定义输出实例掩码的个数。

需要注意的是，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

学海一叶 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。