一、概述
图像分割是图像处理技术的经典难题之一, 也是图像分析和模式识别等高级图像处理操作的流程中的关键步骤, 图像的分割结果直接决定了后期图像处理的效果和质量。所谓图像分割是指将图像中具有特殊含义的区域分割开,且这些区域互相不重叠, 同时每个区域都满足特定的区域一致性条件。 从工程实现的角度,图像分割又可以定义为将图像划分成互不相交(不重叠)区域的过程。从集合论的角度出发,给出了一种较通用的图像分割描述性定义。
定义 1 令 表示整个待分割图像区域,从而可以将图像分割看作将 划分为n个满足以下条件的子区域 , ,…, 的过程:
(1) ,且 是连通的;
(2) 对所有的 和 ,且 ,有 ;
(3) 对于 , ;
(4) 对于 ,有 。
其中, 是定义在区域 内所有点上的逻辑谓词, 表示空集。
条件(1)说明分割必须是完全的(即每个像素必须属于一个子区域),且子区域自身必须是连通的;条件(2)说明各个分割区域之间相互不重叠;条件(3)说明同一个分割区域中的像素具有相同的属性(如具有相同的灰度值) ;条件(4)说明不同分割区域
和
对于谓词
是不同的。
由于图像分割技术应用广泛且与其他学科(如光学、统计学、生物学等)联系紧密,所以图像分割的解决方案和思路呈现出多样化的趋势,并激发了越来越多学者的研究兴趣, 使得对图像分割技术的研究在图像处理领域始终保持着热点地位。在大量关于图像分割技术的科技文献中,己经提出了相当丰富的分割方法和系统的解决方案,尤其是近20年来出现的图像分割方法,不仅包括对原有方法的继承和改进,还涌现出一些新思路、新方法,如基于马尔科夫随机场模型的图像分割、小波分形的图像分割、模糊聚类、基于人工神经网络的图像分割方法等。图像分割方法一般是基于局部像素点的两个基本特性:不连续性和相似性。按照该特性可以将这些已有的图像分割方法归为三类:基于阈值的分割方法、基于间断检测的分割方法、基于区域的分割方法。
此外,还有一些比较特殊的图像分割方法,比如混合几种基本分割方法的复合图像分割方案,引入待分割图像先验知识的智能图像分割方案,用于视频特征提取的时域图像分割方案等等。
基于区域的图像分割方法,将图像按内容划分成许多区域。虽然存在过分割,但是可以通过研究改进算法减少过分割或选择有效的后处理算法得到有用的结果。例如,在Mean Shift[1]和Watershed[2]这两种图像分割算法中,一方面可以研究各种减少过分割的改进算法。另一方面,也可以采用有效的预处理,去除噪音,使图像适宜于Watershed或Mean Shift算法分割。
虽然有很多图像分割方法致力于解决图像分割问题,它们在一些特定的对象中能取得较好的结果。但是,总的来说,图像,特别是彩色图像包含着复杂的纹理和颜色特征,使得全自动图像分割几乎成为不可能的任务。
因此,一些结合用户输入或先验信息的半自动图像分割方法,即交互式图像处理[3],成为近年来研究的热点。如经典的ACM方法,实际上也是一种半自动图像分割算法,适当地选择初始曲线,是得到好的分割结果的必要条件;基于标记驱动的Watershed图像分割方法[4],它结合用户的输入信息,提高分割结果;在Graph Cut方法中,用户的交互式信息也是影响算法的分割结果至关重要的因素。这些交互式图像分割算法通常是以像素为处理单位,但是,它们的一些基本思想显然也适用于基于区域的处理,从而能够改进分割结果。
虽然,Mean Shift和Watershed等算法通常存在着过分割,但是它们得到了一个较好的初始分割结果,即每个区域都包含着目标或背景的一些特征,为后续区域合并处理提供了一个基础。但是,因为目标和背景通常呈现复杂的特征,传统的基于固定阈值的合并方法很难得到有效的结果,因此需要研究新的算法解决复杂条件下的区域合并。
本章的研究对象是彩色(自然)图像的分割问题。将以Mean Shilt算法的分割结果作为基础,提出一种新的交互式区域台并算法,来提取自然图像中的目标。本文所使用Mean Shift分割软件是EDISON System[5]它是个开放的Mean Shift分割软件,界面友好,功能完善,是研究Mean Shift算法很好的平台。
图1.1展示了分割软件的一个实例。
(a)为原始图像。
(b)为EDISON System分割后得到的包含很多小区域的结果。
图1.1 EDISON System分割的例子
二、区域的表示和相似性度量
Mean Shift算法一般将图像分割成一些区域,每个区域具有一定的特征。本文采用RGB颜色空间表示每个区域,当然,其它颜色空间,如HsI和Lab等,也可用于对区域建模。将RGB颜色空间量化为16x16x16=4096箱格,然后计算每个区域的规范化直方图。为了度量区域之间的相似性.选择Bhatlacha系数测量区域R和Q的相似度:
1.1
式中,
和
分别表示区域R和Q的直方图。上标u表示直方图的第u个箱格。
三、目标和背景的标记
在交互式图像分割,用户需要指定目标和背景的概念。用户可以在图像上通过绘制标记,如直线,曲线和笔划等来输入上互动信息。含有目标标记像素的区域因此被称为目标标记区域,而含有背景标记像素的区域被称为背景标记区域。图1.2(b)显示了用简单的线条标记目标和背景的例子。我们用绿色标记来标示目标而使用红色标记来表示对象的背景。请注意,通常只有一小部分的目标区域和背景区域会被用户标记。实际上,用户的必要输入越少,交互式算法就越方便越强大。
如下图:
(a)初始分割。
(b)由用户交互式的信息输入。绿线是目标标记和红线是背景标记。
(c)区域分割的结果。
图1.2 图像分割
目标标记完后,每个区域将被标记为三种类型的地区之一:目标标记区域,背景标记区域和未标记的区域。要完全提取物体轮廓,我们需要将每个未标记的区域自动正确的标记为目标区域或背景区域。为了方便的后续讨论,我们分别用
和
表示目标标记区域集和背景标记区域集,用
表示未标记区域集。
四、基于最大相似度的区域合并机制
经过目标/背景的标记后,准确地从背景中提的目标轮廓仍然是一个具有挑战性的问题,因为用户只指示了一小部分目标背景的特征。传统的方法中,只有邻近区域的相似性超过预设的阈值[6]才将两个区域合并。这些方法在自适应阈值选取上存在困难。一个过大的阈值将导致目标的区域的不完全合并,而过小的阈值可以很容易造成过合并,即一些目标区域被合并为背景区域。此外,也很难判断何时该停止区域合并进程。
目标和背景的标记分别提供了对象和背景一些关键特征。在于基于标记控制的分水岭分割算法中,标记是算法的种子和出发点。类似的,提出的区域合并方法也将从初始标记区域开始,然后所有未标记区域将逐渐标识为目标区域或背景区域。这个懒惰的方法提出了对齐抠出方法[7] ,它结合了基于分水岭初始分割的图形切割,这实际上是一个采用最大流算法的区域合并方法。在本论文中,我们提出了一种自适应地基于极大的相似性的合并机制,以辨别在目标和背景标记指导下所有未标记区域。
设
表示
的一个相邻区域,
表示
的所有相邻区域的集合。所以
与它所有邻域相似性表示为
,显然
。如果
和
的相似性为中
最大的,我们就将
和
合并。合并规则定义如下:
若
,则合并
与
。 1.2
合并规则(2)非常简单,但它确立了该区域合并进程的基础。(2)一个重要的优点是它避免了合并控制中相似性阈值的预置。虽然最值运算操作对异常值敏感 ,但我们经验发现算法工作良好。 这主要是因为,直方图是对本地区全局描述,它具有很强的噪音和很小的变化。
但是,标记区域仅覆盖一部分的目标和背景,那些目标和背景中的非标记区域也应当被自动识别并正确标记。总的来说,标记区域包含了相应的主要特征,因此,未标记的目标区域与目标标记区域,以及未标记的背景区域与背景标记区域有着更高的自相似度。所以通常情况下,非标记的目标区域不会与背景区域相合并。类似地,未标记的背景区域同样不会与目标区域相合并。
区域合并算法:
基于最大相似度的区域合并算法(Maximal Similarity based Region Merging,简称MSRM),分为两个迭代地执行的阶段,直到没有新的区域合并发生。合并策略是尽可能合并背景区域,而保持前景区域不被合并。一旦合并完所有的背景区域,等价于提取了目标。
对每一个区域
,确定其邻域集合
。对每一个
,如果
,求其相应的邻域集合
,显然
。然后计算
和
中的每一个区域的相似度。
如果
和
,满足下式:
那么
和
,合并成一个区域,新的区域将和B有相同的标记,即:
否则,
和
将不台并。
以上的过程迭代进行。在每一次迭代中,集合
和
将被更新.其中,
膨胀、
收缩。当所有背景标记
找不到新的合并对象时,迭代结束。经过第一阶段,部分属于背景的区域互相合并。但是,仍有一些背景区域因为彼此间具有更大的相似度.因此它们不能和背景标记区域合并。第一阶段的合并结果如图1.3(a)所示。可以看出,经过第一阶段后,大多数属于背景的区域己被合并,但仍有一些未标记的背景区域未和背景标记区域合并。
为了完成目标提取,第二阶段将以第一阶段剩下的未标记区域N为处理对象,其中包含部分目标特征,同时也包含部分背景特征。未标记区域在最大相似度规则的指导下互相融合,即目标部分互相融合,背景部分互相融合。
经过第一阶段台并之后,对每一个未标记区域(属于目标或背景)
,构成它的邻域集合
,-接着,对每一个
,如果其满足
和
,构成它的邻域集台
。那么
。计算
和
中每一个区域的相似度
。
如果P和
,满足下式:
那么将P与H,合并成一个区域
否则,它们不能合并。
以上过程迭代至未标记区域
中不再发生合并为止。图1.3(b)表明,经过第二阶段的合并之后,一些未标记目标区域和未标记背景区域分别互相融合。接着,重复地执行第一阶段和第二阶段,直到没有新的合并发生。最后,每个区域被标记成两类:目标或背景,图1.3(d)显示了最终提取的目标。在绝大部分实验中,算法将在2-3个回合结束。
如下图:
(a)第一回合第一阶段。
(b)第一回合第二阶段。
(c)第二回合第一阶段。
(d)第二回合第二阶段。
图1.3 区域合并过程
MSRM算法
输入:初始均值漂移分割结果。
输出:最后的分割图。
当处于最后循环的区域合并中,那么:
第1阶段:将未标记区域N与背景标记区域
合并。
输入:初始分割结果或第二个阶段的合并结果。
(1-1)对于每个区域
,构成其邻域集合
。
(1-2)对于每个
且
,构成其邻域集合
。
(1-3)计算
,如果
,那么
。否则B和
不合并。
(1-4)更新
和N。
(1-5)如果
的地区无法找到新的合并对象,第一阶段合并结束。否则,返回到(1-1)。
第2阶段。自适应地合并未标记区域
。
输入:第一阶段合并的结果。
(2-1)对于每个区域
,构成其邻域集
。
(2-2)对于每个
,
且
,构成其邻域集合
,显然
。
(2-3)计算
。如果
,那么
,否则,P与
不再合并。
(2-4)更新N。
(2-5)如果在区域N无法找到新的区域合并,第二阶段停止。否则返回到(2-1)。
结束
五、收敛性分析
该MSRM算法是一个迭代的方法。它逐步将未标记背景区域N分配到
,然后把所有剩下的区域分配到
。可以很容易地看出该方法收敛。
我们有以下定理。
定理1 MSRM算法收敛,即所有的N区域经过若干迭代会被标记为目标或着背景。
证明如下:
如果在第一个阶段,一个未标记区域
在其邻域中有最大相似度区域B(
),那么P与B合并,即
。如果和P有最大相似度的区域B在目标标记区域中,那么P将保留。如果P和另一个未标记区域P’( P’∈N)有最大相似度,那么P与P’将在第二阶段合并。即P= P’
P。根据以上分析,在迭代的下一个回合,P将与
或其与另一个未标记区域P’合并,或仍保持不变。如果在某次选代后,任一个未标记区域P在
或N中找不到相应的合并对象,算法将停止。
从上面过程可以看出,随着合并的进行,来标记区域中的一部分与目标标记区域合并,一部分将与背景标记区域台并,因此未标记区域N的个数将会逐渐减少。一旦N停止减少,整个算法将停止,N中所有剩下的区域将被标记为
。因此,N中所有的区域全部被标记,算法收敛。
六、小结
本文首先提出对彩色图像进行分割的算法,将以Mean Shift算法的分割结果作为基础,提出一种新的交互式区域台并算法,来提取自然图像中的目标。接着对MSRM算法的背景知识做了介绍,即区域的表示和相似度的度量,以及标记的划分等。然后详细描述基于最大相似度的区域合并算法,MSRM分为两个迭代地执行的阶段,直到没有新的区域合并发生。合并策略是尽可能合并背景区域,而保持前景区域不被合并。一旦合并完所有的背景区域,等价于提取了目标。最后本章指出了算法的收敛性,并进行了证明。
- Comaniciu.V.Ramesh and P.Meer.Real—time tracking of non-rigid objects using mean shift.In Proc.IEEE Conf.on Computer Vision and Pattern Recognition,Hilton Hcad,SC,olume II,June,2000。PP.1 42—1 49.
- S.Chien.Y.Huang and L.Chen.Predictive watershed:a fast watershed algorithm for video segmentation.IEEE Transactions on circuit and systems for video technology.2003,13(5):453-461.
- Levin and A.Rav.Acha and D.Lischinski.Spectral matting.In Proceedings of the IEEE onfefence on Computer Vision and Pattem Recognition,2007.
- Meyer and S.Beucher.Morphological segmentation.Joumal of Visual Communication and Image Representation.1990,l(1):2l-46.
- EDISON图像分割软件.http://www.caip.rutgers.edu/riul/research/code.htrnl
- M. Sonka, V. Hlavac, R. Boyle, Image Processing, Analysis and Computer Vision,Thomson, 2007.
- Y. Li, J. Sun, C. Tang, H. Shum, Lazy snapping, SIGGRAPH 23 (2004) 303–308.