简介
主题:采用图割方法解决视觉问题中常见的能量最小化问题
主要参考文献:Fast Approximate Energy Minimization via Graph Cuts, Cornell University, Boykov, Veksler, Zabih, IEEE PAMI 23(11), pp 1222ff, 2001
在诸多视觉图像问题中,研究人员最后都能将其归结为最小化一个能量函数的问题,很多文献中都引用这篇文章:Fast Approximate Energy Minimization via Graph Cuts,该文章在 google scholar 上显示截至目前引用超过5k+。该文章中介绍了两种采用图割来解决能量最小化问题的算法: α -expansion and α - β swap algorithms。
下面本文通过拜读并翻译原文,加上个人理解试着弄清楚这两个算法的来龙去脉,如有错误敬请指出。
计算机视觉中的能量最小化问题描述
在计算机视觉领域中,我们经常需要估计一些在空间(像素平面)上变化的量,例如图像灰度、视差大小等。这些量都有着共同的特征:分块平滑(piecewise smoothness)。分块平滑意味着两个方面:这些量在块的内部变化平滑,在块与块之间(物体边界)变化很大。对每一个像素点 p∈P 我们都需要给定一个标签(label) fp∈L ,也就是将每个像素映射到标签集中的某个标签上,这里标签函数(映射) f 不仅需要满足分块平滑的特点而且需要和观测到的数据一致。
基于以上想法,这些视觉问题就可以表达成以下寻找标签函数
在这里 Esmooth(f) 表达的是 f 分块不平滑的程度,
其中 Dp 来度量标签与观测数据的一致性,例如在图像恢复中 Dp(fp)=(fp−ip)2 ,其中 ip 表示在像素点 p 处的灰度值,在这里
平滑项 Esmooth 才是关键所在。为了在边界处得到较好的效果,我们选择一种“非连续性保留”(discontinuity-preserving) 函数(参考分块平滑两项性质)。
由于能量最小化是非凸优化问题,具有很多局部极小值,并且解空间有 |P| 维,因此解这种能量最小化问题最大的障碍就是巨大的搜索空间。模拟退化法可以优化任意能量函数,但是通常计算非常缓慢。
在这篇文章中主要考虑的平滑项具有以下形式:
这里 N 表示的是相邻的像素对集合。 Vp,q(fp,fq) 表示像素对 { p,q} 在标签函数 f 下生成的标签
该论文中提出了两种对任意有限大小的标签集 L 进行近似能量最小化的算法: α -expansion and α - β swap,分别针对两种互作用势(interaction potentials):度量(metric)、半度量(semi-metric)。 V 在标签空间