参考图像分割Referring Image Segmentation（RIS）和开放词汇语义分割Open Vocabulary Semantic Segmentation

余弦的倒数

已于 2023-11-18 08:58:29 修改

阅读量2.7k

点赞数 1

分类专栏：深度学习 CV 文章标签：笔记计算机视觉深度学习

于 2023-11-17 19:46:50 首次发布

本文链接：https://blog.csdn.net/qq_47898999/article/details/134465817

版权

深度学习同时被 2 个专栏收录

9 篇文章

订阅专栏

6 篇文章

订阅专栏

一、参考图像分割

基本概念：Referring Image Segmentation（RIS）是一种图像分割技术，旨在根据自然语言表达来标记图像或视频中表示对象实例的像素。也就是根据自然语言描述来实现图像分割。旨在根据自然语言表达来标记图像或视频中的特定区域。在给定描述区域的自然语言文本的情况下，RIS需要在图像中找到相应的区域。这个任务是众所周知的具有挑战性的视觉和语言任务之一。

RIS需要收集目标区域的精确引用表达式及其密集的mask的标注，这使得为该任务收集注释更具挑战性。现有的方法仍然需要与目标数据集的图像相配对的注释才能够完成这一任务，并且该方法的性能远不及全监督方法。

与一般图分割的区别：RIS 可以通过自然语言引导对不同对象进行分割，例如，有一张包含两只猫的图片，一只黑猫和一只白猫。一般图像分割模型会将两只猫都标记为“猫”，而不进行更精细的区分。但在 RIS 中，如果给定参考表达式“白色的猫”，模型将仅标记白色的猫。

存在问题：RIS 图像分割技术的 label，除了分割对象的自然语言描述，还需要大量的像素级标注，而像素级标注成本相当高。限制了 RIS 技术的发展。

二、开放词汇语义分割

开放词汇语义分割是一种新颖的语义分割方法，其特点在于可以识别任意类别的语义区域，而不是仅限于预定义的类别。这种方法主要基于文本描述进行分割，利用视觉编码器和文本编码器对图像文本对进行训练，以实现图像的语义分割。

一种可能的方法是不使用任何掩码标签，直接在网络收集的图像文本对上训练视觉编码器和文本编码器。另一种方法则是首先生成类掩码建议，然后利用预先训练的视觉语言模型（如CLIP）对掩码区域进行分类。

开放词汇语义分割旨在解决现代语义分割模型主要用预定义的类别进行训练，无法推广到未知类别的问题。这种方法通过文本描述的任意类别对图像进行分割，从而更接近人类水平的感知。

具体来说，开放词汇语义分割的方法包括使用视觉编码器和文本编码器对图像文本对进行训练，以及使用预先训练的视觉语言模型（如CLIP）对掩码区域进行分类。这种方法能够处理任意类别的语义区域，从而实现更灵活的语义分割。

此外，为了解决预训练的CLIP模型在掩膜图像上表现不佳的问题，有研究者提出了一种新的方法，即在一组带有掩膜的图像区域和它们对应的文本描述上微调CLIP的方法。这种方法通过挖掘现有的图像-标题数据集（如COCO Captions）来收集训练数据，并使用CLIP将掩码图像区域与图像标题中的名词进行匹配。这种方法能够更好地保留CLIP的泛化能力。

总的来说，开放词汇语义分割是一种具有挑战性的研究方向，旨在实现更灵活、更强大的语义分割能力。未来的研究将集中在如何提高模型的泛化能力、如何处理未知类别的语义区域等问题上。