以下六个标准详细说明了图像分割研究的分类和理解的综合框架:
-
学习范式: 该标准描述模型如何学习分割图像。
- 监督学习 是传统方法,模型在具有相应手动创建的分割掩模的大型图像数据集上进行训练。 这种方法通常产生高精度,但需要大量的数据标注工作。
- 无监督学习 旨在在没有任何标记数据的情况下分割图像。 这些方法通常依赖于固有的图像属性,例如颜色、纹理或对象边界来识别和分离对象。
- 半监督学习 结合了监督学习和无监督学习的方面。 它利用少量标记数据来指导更大集的未标记数据的学习过程,从而可能减少对大量手动注释的需求。
- 自监督学习 是一种无监督学习的形式,其中模型通过创建借口任务从数据本身学习。 例如,模型可能会学习预测图像的掩蔽部分,然后可以将这些知识转移到分割任务中。
-
任务: 该标准指定研究旨在实现的分割类型。
- 语义分割 重点是为图像中的每个像素分配一个类别标签。 例如,它会将像素标记为属于“人”、“汽车”或“道路”等类别。
- 实例分割 通过识别和描绘类内的单个对象来更进一步。 它可以区分人群中的不同人或停车场中的不同汽车。
- 全景分割 结合语义分割和实例分割,以提供对场景的整体理解。 它标记对象的类别及其各个实例。
- 交互式分割 涉及人工交互来指导分割过程。 用户可以提供输入,例如单击或涂鸦,以指示感兴趣的对象,模型根据此反馈改进分割。
-
指导类型: 该标准是指用于指导分割过程的输入或指导类型。
- 免训练 方法不需要在预训练模型之上进行任何额外的训练。 他们利用模型中已经嵌入的知识来执行分割。
- 提示引导 分割依赖于用户提供的提示,例如点、涂鸦、边界框或粗掩模,以指示要分割的对象。
- 文本引导 分割使用自然语言描述来指定感兴趣的对象。 例如,用户可能会要求模型分割“左边的那辆红色汽车”。
- 视听 分割涉及在视听剪辑中分割声源,将视觉信息与相应的声音对齐。
-
模型架构: 该标准描述了用于分割的模型的底层结构。
- 卷积神经网络 (CNN) 是许多计算机视觉任务(包括分割)的基本构建块。 它们在从图像中提取特征方面特别有效。
- Vision Transformers (ViT) 已成为 CNN 的强大替代方案。 它们利用自我注意机制来捕捉图像中的全局依赖关系,这有利于分割。
- 生成对抗网络 (GAN) 通常用于无监督学习中的图像分割。 它们由一个生成图像的生成器和一个评估其真实性的鉴别器组成,这个对抗过程可以帮助学习对象表示。
- 扩散模型 是生成模型,在图像生成和修复等任务中广受欢迎。 它们可以集成到分割框架中,以提高生成的掩模的质量。
-
训练数据: 此标准指定用于训练或评估分割模型的数据集。
- ImageNet 是一个包含大量标记图像的数据集,通常用于预训练模型的一般图像识别任务。
- COCO 是一个广泛使用的数据集,具有用于对象检测、分割和字幕的详细注释。
- PASCAL VOC 是另一个流行的对象分类和分割数据集。
- 特定领域数据集 是为特定任务策划的。 例如,DAVIS 数据集是为视频对象分割而设计的,而 DUTS-TE 数据集用于显着对象检测。
-
评估指标: 这些指标用于评估分割模型的性能。
- Intersection over Union (IoU) 是最常用的指标。 它测量预测的分割掩模和真实掩模之间的重叠,提供单个值来量化准确度。
- 边界精度 特别关注模型如何描绘对象的边界。
- “Maskness” 分数 用于一些无监督方法来评估生成的掩模的质量和真实性。
- 特定任务指标 是针对特定分割任务量身定制的。 例如,在视频对象分割中,度量可能会评估视频帧之间掩模的时间一致性。
论文“PaintSeg: Training-free Segmentation via Painting”可以根据六个标准分类如下:
-
学习范式: 无监督。 该论文明确指出 PaintSeg 是一种无监督方法,这意味着它不需要标记的训练数据。 它通过利用原始图像和绘制图像之间的固有对比来学习分割对象。
-
任务: 实例分割和提示引导分割。 PaintSeg 专注于分割图像中的单个对象(实例分割)。 它也是提示引导的,因为它利用用户提供的提示(如粗略掩码、边界框、涂鸦或点)来启动和指导分割过程。
-
指导类型: 免培训和提示引导。 PaintSeg 是免训练的,因为它不需要在预训练的生成模型之上进行额外的训练。 它也是提示引导的,利用各种视觉提示来指定感兴趣的对象。
-
模型架构: 主要扩散模型。 虽然论文提到使用 Vision Transformer (ViT) 进行特征投影,但 PaintSeg 的核心依赖于用于图像修复和外涂的扩散模型,这对于创建用于分割的对比度至关重要。
-
训练数据: 不适用 (N/A)。 作为一种免训练的方法,PaintSeg 不依赖于特定的训练数据集。 它利用预训练的生成模型,这些模型可能是在 ImageNet 等大型数据集上训练的,但这不是 PaintSeg 论文的重点。
-
评估指标: 交集联合 (IoU)。 该论文使用 IoU 作为主要指标来评估分割结果的质量,比较预测掩模和真实掩模之间的重叠。