Efficient Graph-Based Image Segmentation

最新推荐文章于 2025-04-30 20:33:10 发布

surgewong

最新推荐文章于 2025-04-30 20:33:10 发布

阅读量3.9w

点赞数 52

分类专栏：图像分割文章标签：基于图表达图像分割 Graph-Based Image Segmentation 最小比分割

本文链接：https://blog.csdn.net/surgewong/article/details/39008861

版权

本文深入探讨了Felzenszwalb在2004年发表的基于图表示的图像分割方法，该算法通过图论中的最小生成树理论，实现了高效且能保持图像细节的分割。通过理解图像区域、知识准备、相关定义、算法过程、效率分析，揭示了该算法为何在图像分割领域受到广泛应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

前一段时间在看Selective Search【1】的论文，其前期工作就是利用Graph-Based Image Segmentation【2】的分割算法，在深入阅读论文【2】以及查阅代码之后，深深地为作者的清晰逻辑折服。在此将自己对于这篇论文的理解记录下来。后期将继续补充对Selective Search的理解。

【2】是2004年由Felzenszwalb发表在IJCV上的一篇文章，主要介绍了一种基于图表示（graph-based）的图像分割方法。图像分割（Image Segmentation）的主要目的也就是将图像（image）分割成若干个特定的、具有独特性质的区域（region），然后从中提取出感兴趣的目标（object）。而图像区域之间的边界定义是图像分割算法的关键，论文给出了一种在图表示（graph-based）下图像区域之间边界的定义的判断标准（predicate），其分割算法就是利用这个判断标准（predicate）使用贪心选择（greedy decision）来产生分割（segmentation）。该算法在时间效率上，基本上与图像（Image）的图（Graph）表示的边（edge）数量成线性关系，而图像的图表示的边与像素点成正比，也就说图像分割的时间效率与图像的像素点个数成线性关系。这个算法有一个非常重要的特性，它能保持低变化（low-variability）区域（region）的细节，同时能够忽略高变化（high-variability）区域（region）的细节。这个性质很特别也很重要，对图像有一个很好的分割效果（能够找出视觉上一致的区域，简单讲就是高变化区域有一个很好聚合（grouping），能够把它们分在同一个区域），这也是为什么那么多人引用该论文的原因吧。

对于图像分割的其他相关算法了解的不是很多，不在这里多说。大致按照原论文的格式来谈谈自己的理解。

一、图像区域的理解；

二、知识准备；

三、相关定义；

四、算法过程；

五、算法证明；

六、算法效率分析；

七、算法实现及样例。

一、图像区域的理解

在做图像分割，首先需要理解如何定义一个区域，我们人眼可以很轻松地解决这个问题，但是使用数字化语言定义就没有那么容易了。比较直观的区域划分方法有，区域的颜色，边缘，纹理。我们来看一个例子：

三个区域

人眼看上图左上角区域，很容易判断出有三个区域。左半部分是灰度渐进变化的，右半部分外层灰度均匀变化，内层灰度变化较大。

当然我们也希望算法能够实现这一点，上图的例子告诉我们不能使用灰度的变化作为分割依据，也不能使用单一的灰度阈值来作为分割的评判标准。能够捕捉视觉上重要的区域（perceptually important regions）对于一个分割算法来说是非常有意义的。

人的视觉是一个非常复杂的系统，我们无法给出一个通用的区域的定义，但要是能够捕捉到视觉上重要的区域（perceptually important regions），我们就可以认为是一个非常成功的定义方式。

二、知识准备

该论文主要有两个关键点：1. 图像（image）的图（graph）表示；2. 最小生成树（Minimun Spanning Tree）。

图像（image）的图表示是指将图像（image）表达成图论中的图（graph）。具体说来就是，把图像中的每一个像素点看成一个顶点vi ∈ V（node或vertex），像素点之间的关系对（可以自己定义其具体关系，一般来说是指相邻关系）构成图的一条边ei ∈ E，这样就构建好了一个图 G = (V,E)。图每条边的权值是基于像素点之间的关系，可以是像素点之间的灰度值差，也可以是像素点之间的距离（如果是4-邻域相邻关系的话，这个权值就没意义了）。

将图像表达成图之后，接下来就是要如何分割这个图，或者这么理解，将每个节点（像素点）看成单一的区域，然后进行合并。【2】中使用最小生成树方法合并像素点，然后构成一个个区域。关于最小生成树的具体原理，请自己查看相关资料。大致意思就是讲图（Graph）简化，相似的区域在一个分支（Branch）上面（有一条最边连接），大大减少了图的边数。

三、相关定义

【2】介绍的图像（image）的图（graph）表示为G=(V,E)，每个像素点代表图的一个顶点vi ∈ V ，相邻的两个像素点构成一条边(vi, vj) ∈ E，像素颜色值的差异构成边(vi, vj)的权值w((vi, vj))。相邻的像素点，可以是像素的4邻域也可以是8邻域。边之间的权值w((vi, vj))还可以通过其他的关系来定义，比如说位置（location）。在下面的讨论中，权值越小，表示像素点之间的相似度就越高，反之，相似度就越低。

接下来主要讲graph的分割，这里实现的算法与传统的图分割（Graph-Cut，可以参考【3】的系列博客，这里不再提及）还是有些不同的。这里的分割是将G = (V,E) 分割成一系列不相交的部分（component） C，每个C都构成一个子图G‘。这些子图的之间相互独立（disjoint），主要是指它们之间没有公共的点。

先介绍几个定义，用于算法的实现。

1. 分割区域（Component）的内部差（internal difference）。可以先假定图G已经简化成了最小生成树 MST，一个分割区域C 包含若干个顶点，顶点之间通过最小生成树的边连接。这个内部差就是指分割区域C中包含的最大边的权值。