Alpha-expansion and Alpha-beta-swap Algorithm Flow

简介

主题:采用图割方法解决视觉问题中常见的能量最小化问题
主要参考文献:Fast Approximate Energy Minimization via Graph Cuts, Cornell University, Boykov, Veksler, Zabih, IEEE PAMI 23(11), pp 1222ff, 2001
在诸多视觉图像问题中,研究人员最后都能将其归结为最小化一个能量函数的问题,很多文献中都引用这篇文章:Fast Approximate Energy Minimization via Graph Cuts,该文章在 google scholar 上显示截至目前引用超过5k+。该文章中介绍了两种采用图割来解决能量最小化问题的算法: α -expansion and α - β swap algorithms。
下面本文通过拜读并翻译原文,加上个人理解试着弄清楚这两个算法的来龙去脉,如有错误敬请指出。

计算机视觉中的能量最小化问题描述

在计算机视觉领域中,我们经常需要估计一些在空间(像素平面)上变化的量,例如图像灰度、视差大小等。这些量都有着共同的特征:分块平滑(piecewise smoothness)。分块平滑意味着两个方面:这些量在块的内部变化平滑,在块与块之间(物体边界)变化很大。对每一个像素点 pP 我们都需要给定一个标签(label) fpL ,也就是将每个像素映射到标签集中的某个标签上,这里标签函数(映射) f 不仅需要满足分块平滑的特点而且需要和观测到的数据一致。
基于以上想法,这些视觉问题就可以表达成以下寻找标签函数 f 以求能量最小化的形式:

E(f)=Esmooth(f)+Edata(f),

在这里 Esmooth(f) 表达的是 f 分块不平滑的程度, Edata(f) 表达的是标签函数 f 与观测到数据的不一致性。 Edata(f) 的一般形式是:
Edata(f)=pPDp(fp),

其中 Dp 来度量标签与观测数据的一致性,例如在图像恢复中 Dp(fp)=(fpip)2 ,其中 ip 表示在像素点 p 处的灰度值,在这里 Edata(f) 并不是重点。
平滑项 Esmooth 才是关键所在。为了在边界处得到较好的效果,我们选择一种“非连续性保留”(discontinuity-preserving) 函数(参考分块平滑两项性质)。
由于能量最小化是非凸优化问题,具有很多局部极小值,并且解空间有 |P| 维,因此解这种能量最小化问题最大的障碍就是巨大的搜索空间。模拟退化法可以优化任意能量函数,但是通常计算非常缓慢。
在这篇文章中主要考虑的平滑项具有以下形式:
Esmooth={ p,q}NVp,q(fp,fq),

这里 N 表示的是相邻的像素对集合。 Vp,q(fp,fq) 表示像素对 { p,q} 在标签函数 f 下生成的标签 (fp,fq) 之间的距离(相似度、平滑程度)。在某些特殊情况下这种能量形式是能够精确的最优化,这里不展开,一般来说,这个问题是 NP 难问题。
该论文中提出了两种对任意有限大小的标签集 L 进行近似能量最小化的算法: α -expansion and α - β swap,分别针对两种互作用势(interaction potentials):度量(metric)、半度量(semi-metric)。 V 在标签空间 L 上满足下面两个条件时才称之为半度量:对任意一对标签 α,βL ,都有 V(α,β)=V(β,α)0 V(α,β)=0α=β. 如果 V 对任意的 α,β,γL 还满足三角不等式:
V(α,β)V(α,γ)
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值