实例分割的三类方法

我就想睡到自然醒

已于 2024-09-07 16:13:16 修改

阅读量218

点赞数 10

文章标签：图像处理

于 2024-09-07 16:02:38 首次发布

本文链接：https://blog.csdn.net/m0_46583515/article/details/141997566

版权

实例分割有两大类方法，第一类是先检测边界框，再分割像素，即’detect-then-segment’；第二类是先利用嵌入向量从像素层面分割出每个个体，再把这些个体分组，即affinity relation（基于亲和力的方法）。
举个例子，一张图片中有很多鸡鸭鹅。

**“detect-then-segment”方法：**这种方法首先检测出图像中所有可能包含目标对象的区域，即“一堆鸡”、“一堆鸭”、“一堆鹅”的区域，这些区域通常被表示为边界框（bounding boxes）。在确定了这些区域之后，算法会在每个边界框内进一步分割，识别出每个单独的实例，即从每一堆中区分出每只鸡、每只鸭、每只鹅。这种方法通常用于目标检测和实例分割任务中，如Mask R-CNN，它先通过区域建议网络（RPN）检测对象，然后在每个检测到的区域内分割出具体的实例。

**基于亲和力（affinity）的方法：**这种方法不直接检测边界框，而是为图像中的每个像素点分配一个嵌入向量（embedding vector），通过这种方式学习像素之间的亲和力。算法会尝试将属于同一实例的像素拉近（例如，同一只鸡的身体部分），将属于不同实例的像素推远（例如，不同鸡的身体部分）。完成这一过程后，需要一个分组的后处理步骤来明确区分出哪些像素属于同一个实例。这种方法通常用于那些不依赖于先验边界框信息的实例分割任务中，如一些基于图的分割方法或基于像素聚类的方法。

PS：在实际应用中，这两种方法各有优势和局限，选择哪一种方法取决于具体任务的需求、数据的特性以及期望的计算效率。例如，在具有明显个体区分度和复杂背景的场景中，可能更倾向于使用“detect-then-segment”方法，因为它可以更准确地定位和分割目标；而在目标个体之间界限不明显或相互遮挡较多的情况下，基于亲和力的方法可能更加适用，因为它能够更好地处理像素级别的复杂关系。

几年前有了第三类方法，即直接分割，如SOLO。