Alpha-expansion and Alpha-beta-swap Algorithm Flow

本文链接：https://blog.csdn.net/nothinglefttosay/article/details/48554555

简介

主题：采用图割方法解决视觉问题中常见的能量最小化问题
主要参考文献：Fast Approximate Energy Minimization via Graph Cuts， Cornell University, Boykov, Veksler, Zabih, IEEE PAMI 23(11), pp 1222ff, 2001
在诸多视觉图像问题中，研究人员最后都能将其归结为最小化一个能量函数的问题，很多文献中都引用这篇文章：Fast Approximate Energy Minimization via Graph Cuts，该文章在 google scholar 上显示截至目前引用超过5k+。该文章中介绍了两种采用图割来解决能量最小化问题的算法： $\alpha$ -expansion and $\alpha$ - $\beta$ swap algorithms。
下面本文通过拜读并翻译原文，加上个人理解试着弄清楚这两个算法的来龙去脉，如有错误敬请指出。

计算机视觉中的能量最小化问题描述

在计算机视觉领域中，我们经常需要估计一些在空间（像素平面）上变化的量，例如图像灰度、视差大小等。这些量都有着共同的特征：分块平滑（piecewise smoothness）。分块平滑意味着两个方面：这些量在块的内部变化平滑，在块与块之间（物体边界）变化很大。对每一个像素点 $p\in\mathcal{P}$ 我们都需要给定一个标签（label） $f_p\in\mathcal{L}$ ，也就是将每个像素映射到标签集中的某个标签上，这里标签函数（映射） $f$ 不仅需要满足分块平滑的特点而且需要和观测到的数据一致。
基于以上想法，这些视觉问题就可以表达成以下寻找标签函数 $f$ 以求能量最小化的形式：

E (f) = E s m o o t h (f) + E d a t a (f),

$E(f) = E_{smooth}(f) + E_{data}(f),$
在这里

Esmooth(f) $E_{smooth}(f)$ 表达的是

f $f$ 分块不平滑的程度，

Edata(f) $E_{data}(f)$ 表达的是标签函数

f $f$ 与观测到数据的不一致性。

Edata(f) $E_{data}(f)$ 的一般形式是：

E d a t a (f) = \sum p \in P D p (f p),

$E_{data}(f) = \sum_{p\in\mathcal{P}}D_p(f_p),$
其中

Dp $D_p$ 来度量标签与观测数据的一致性，例如在图像恢复中

Dp(fp)=(fp−ip)2 $D_p(f_p) = (f_p - i_p)^2$ ，其中

ip $i_p$ 表示在像素点

p $p$ 处的灰度值，在这里

Edata(f) $E_{data}(f)$ 并不是重点。
平滑项 $E_{smooth}$ 才是关键所在。为了在边界处得到较好的效果，我们选择一种“非连续性保留”(discontinuity-preserving) 函数（参考分块平滑两项性质）。
由于能量最小化是非凸优化问题，具有很多局部极小值，并且解空间有

|P| $|\mathcal{P}|$ 维，因此解这种能量最小化问题最大的障碍就是巨大的搜索空间。模拟退化法可以优化任意能量函数，但是通常计算非常缓慢。
在这篇文章中主要考虑的平滑项具有以下形式：