《基础模型时代的图像分割》研究综述

最新推荐文章于 2024-09-14 16:43:45 发布

霖大侠

最新推荐文章于 2024-09-14 16:43:45 发布

阅读量380

点赞数 3

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_51659249/article/details/141752517

版权

图像分割的目标：将像素划分为不同的组别

现代图像分割方法：①适配基础模型（例如CLIP、Stable Diffusion、DINO）用于图像分割②开发专门的分割基础模型（如SAM）

一、本综述的两大基本研究方向

通用图像分割（即语义分割、实例分割、全景分割）

可提示的图像分割（即交互式分割、参考分割、少样本分割）：指定图像要分割的内容

本综述的贡献：

对基于著名基础模型的最近图像分割方法进行的全面探索，如CLIP [71]、Stable Diffusion [43]、DINO [56]/DINOv2 [57]、SAM [49]和LLMs/MLLMs [72]。

2.1语义分割

2.1.1基于CLIP

CLIP微调：

CATSeg [153]引入了基于成本聚合的框架，即使在完全微调后也能保持CLIP的零样本能力。OTSeg [154]通过利用多个文本提示的集成并引入多提示sinkhorn注意力来改善多模态对齐。ZegCLIP [155]、LDVC [156]和ZegOT [157]使用参数高效的提示调优技术来转移CLIP。

SemiVL 采用部分调优策略，仅调优自注意力层的参数。

知识蒸馏（KD）：用于转移基础模型的能力

2.1.2基于DM

这里对DM有一个初步的了解

DM指的是Diffusion Model，扩散模型，是一种生成模型，通过逐步去除数据中的随机噪声，从而逐步构建出有意义的数据样本。

DM模型从生成任务到语义分割领域的应用也越来越受到关注。

2.1.3基于DINO

DINO模型是基于自监督学习的视觉模型，旨在从大规模数据集中学习丰富的视觉特征。

2.1.4基于SAM

SAM模型相对比较熟悉，前段时间做过的VOS竞赛，用的是SAM2模型，给出掩码在视频中分割

CLIP在语义理解方面表现出色，而SAM和DINO则擅长空间理解。有许多改进的模型，充分利用了二者的特点，进行了结合。

2.2实例分割

2.2.1 基于CLIP

CLIP在实现开放词汇实例分割中发挥了重要作用

2.2.2 基于DM

DMs在实例分割中通过促进生成具有准确标签的大规模训练数据集发挥了关键作用。

2.2.3 基于DINO

无监督实例分割。它们通常采用两阶段的发现和学习过程：通过递归应用归一化切割[100]等方法从DINO特征中发现多个对象掩码，然后利用这些掩码作为伪标签训练实例分割模型。

2.2.4 基于FMs

通过将实例的边界框作为提示输入，可以轻松地将SAM直接转换为实例分割模型，这些边界框可以通过对象检测器获取，如Faster R-CNN ，Grounding DINO。Grounding DINO模型在我们做Omnilabel竞赛的时候有接触过。

2.3全景分割

二、基于基础模型的交互式分割

对于这个交互式分割，我相对来说比较了解SAM模型，我们也对刚开源的SAM2模型进行过推理，也真正地有过交互，就是可以添加自己想要分割的目标物体，但是目前我只尝试过一个或者两个目标物体，，三个及以上还没有试过

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。