论文翻译《Fields of Experts: A Framework for Learning Image Priors》

专家场:一个学习图像先验的框架

摘要

我们开发了一种可以用于学习一般的具有表现力的图像先验的框架,它捕获了自然场景的统计数据并可以用于多种机器视觉任务。这种方法通过在扩充的像素邻域上学习潜在的功能来推广传统的MRF模型。场势被PoE”专家乘积“框架利用许多线性滤波器响应的非线性函数来建模。对比于之前的MRF,这种模型的所有参数,包括线性滤波器本身,都是通过训练数据习得。我们使用两个典型应用——图像去噪、图像修复,来展示专家场模型的性能,这两个例子使用一个简单的近似的推理方案实现。虽然这个模型是在一般图像数据库上进行训练的而且没有对特殊应用进行调整,但是我们获得了匹敌与甚至超过了专业技术的结果。

1.介绍

很多机器视觉问题包括立体、光流、去噪、超分辨率和基于图像的渲染等等,都出现了对图像结构的先验模型的需求。无论什么时候出现了噪声或者不确定性,图像的先验模型开始起作用。这里我们开发了一个方法,通过利用稀疏图像编码的想法来学习丰富的MRF图像先验。由此产生的专家场依据具有重叠团的随机场对一张图像的先验概率进行建模,它的势被表示为专家产品。

我们展示了这个模型如何在一个自然图像的标准数据库上被训练,并开发了一个扩散式的、利用近似贝叶斯推论的先验的方案。为了证明FoE模型的建模能力,我们在两种不同的应用中使用它:图像去噪和图像修复。尽管先验具有一般性质并且近似推论简单,但是我们直到现在获得的最新结果是不可能用MRF方法得到的。图片1阐明了FoE模型在图像去噪和图像修复的应用。在下面我们提供了一个详细的关于这些方面的最新技术的性能的定量分析。

图形先验建模具有挑战性,由于图像的高维度、非高斯统计和对扩展领域上图像结构的相关性建模的需求。经常发现,对于各种线性滤波器,边缘滤波器相应是非高斯的,不同滤波器的响应经常不是独立的。

稀疏编码方法尝试解决一些在复杂图像结构建模方面的问题。尤其是,他们按照一组线性滤波器响应来对图像的结构属性建模。从各种简单的假设开始,许多作者已经获得了局部图像结构的稀疏表示,按照在位置、方向和规模的局部滤波器的统计数据。然而,这些方法集中于图像碎片,没有提供直接的方法对统计的整个图像进行建模。

马尔可夫随机场在另一方面已经被广泛使用在机器视觉领域,但是展示出严重的局限性。特别是,MRF先验典型地利用了手工团势和小邻域系统,这限制了模型的可表达性而且粗糙地捕获自然图像的统计数据。典型的模型考虑简单的最近的邻域关系和模型一阶微分滤波器的响应。通过系数编码方法获得的丰富的基于碎片的先验与被大多数MRF方法极度采用的局部先验(利于一阶)具有鲜明的对比。

朱松纯和芒福德向更加实用的MRF迈进了一步,介绍了允许MRF先验可以通过训练数据被学习获得的FRAME模型。然而这种方法仍然依赖于手动选择的图像过滤器集合,从中建立图像先验。这种方法由于使用了离散过滤器直方图而变得复杂,而且报道的图像重建结果低于最先进水平。另一项工作是使用多种、非局部的成对像素交互来实现对复杂空间属性的建模。到目前为止,这些方法仅仅用于纹理合成而不是对一般图像先验建模。

为了对复杂的局部统计数据进行建模,很多作者转向了由图像碎片数据库捕获的经验概率模型。弗里曼在[7]中提出一个MRF模型,这个模型使用了示例图像碎片和他们之间的一致性的度量来建立场景结构。这个想法最近被用作基于图像的渲染的先验模型,并与基于实例的纹理合成有关。其他的MRF模型使用帕森窗口方法来定义场的势。Jojic在[14]中使用了一张图片或一组图片的一个微型版本,叫做缩影,来描述一张图片。尽管也许有可能使用这种方法当作一般图像先验,但是这种可能性尚未被开发。

本文的目标是开发一个学习自然图像的丰富的、一般的先验模型的框架。相比于基于实例的方法,我们开发了一个使用例子进行训练的参数表示,但是不依赖实例作为表示的一部分。这种参数化模型比基于实例的模型更有优势,因为它可以更好的概括训练数据之外的内容并允许更优雅的计算技术。关键思想是通过使用学习滤波器对局部场势进行建模,推广马尔可夫随机场超越FRAME。为了做到这样,我们利用PoE框架[11]的思想。早先的使用PoE对图像建模的成就是基于碎片的,因此不适用于学习任意尺寸的图像的一般先验。我们推广这种方法,产生平移不变的先验。专家场框架提供了原则性的方式从例子中学习MRFs,并且极大提高的建模能力使他们适用于复杂任务。

2.稀疏编码和专家产品

小图像碎片的统计在文献中被广泛处理。特别是,稀疏编码方法[18]用学习过滤器或“基”的线性组合来表示一个图像碎片。

 

是向量化的图像碎片,是一个惩罚非零系数的稀疏先验。这个方程的变化导致了主要成分、独立成分和更特殊化的滤波器。

独立成分分析(ICA)可用于定义图像碎片的一个概率模型。由于被ICA发现的成分是假设独立的,所以我们可以简单地将他们的边缘分布相乘来得到一个先验模型。然而,对于n个像素的图像碎片,一般不可能找到n个完全独立的线性成分,这使得ICA模型仅仅是一个近似法。

威林等人使用一个基于专家产品框架的模型打破了这一限制。PoE框架背后的思想是使用几个专家分布的乘积来对高维概率分布建模,其中每一个专家工作在一个相对容易建模的低维子空间。通常,专家被定义在线性的一维子空间(相当于稀疏编码模型中的基向量)。请注意,将图像碎片投射到线性成分()相当于使用被Ji描述的线形滤波器过滤。基于观察,应用于自然图像的线性滤波器的响应典型地表现出高度的尖峰边缘分布,类似于学生-t分布。完整的t-分布乘积(PoT)模型可以写成其中和专家有如下关系,并且是正则化或分区函数。被假设成正的,这是为了使有适当的分布,但是注意专家本身不被假设为是正则化的。之后用吉布斯形式重写概率密度会方便一些。这个模型的一个重要性能是所有的参数都可以从训练数据学习获得,即和ICA模型相比,PoE模型的优势在于专家的数量N不必和像素的数量n(维度)相等。PoE模型允许专家数量少于(欠完全)、等于(完全)或多于(过完全)维度。过完全情况特别有趣,因为它允许滤波器之间的依赖可以被建模,因此比ICA更具表现力。

训练PoT模型的过程将会在下一部分在我门对FoE模型的推广下介绍,图2展示了在5X5图像碎片上训练这个PoE模型获得的24个滤波器的一组选集。训练数据包含了随机从Berkeley Segmentation Benchmark复制并转换成灰度的60000图像碎片。由此模型学习获得的滤波器和使用非参数的ICA技术或者标准稀疏编码方法获得的滤波器都是相同类型的Gabor类滤波器。训练几倍过完全的模型是可能的;滤波器的特性不变。

这些方法的一个关键特性是他们集中于对小图像碎片的建模。而不是对整个图像定义一个先验模型。尽管这样,威林等人[24]提出了一个对于任意尺寸图像去噪的算法。然而,由此产生的算法不方便推广于其他的图像重构问题。

一些工作已经将稀疏编码方法推广到全图像[21]。这个模型的推论需要吉布斯采样,这使得它对于许多机器视觉应用的吸引力下降。

3.专家场

3.1基础模型

虽然在之前一节描述的模型提供了一个优雅而且强大的方法来学习小图像碎片的先验分布,但是这些结果不能很快的推广到给出全图像的一个先验模型。出于如下原因简单地增大图像碎片并不是一个可行的解决方案:(1)需要学习的参数将会变得很多(2)模型将仅仅工作在特殊的图像大小且无法推广到其他图像尺寸(3)该模型将不具备平移不变性,这是一般图像先验的理想特性。

这里的关键点是我们可以通过结合稀疏编码和MRF模型的思想来客服这些问题。为了达到那个目的,让图G=(V,E)中的节点V来代表图像中的像素,其中E是连接节点的边。我们定义一个领域系统,这个系统连接了m*m矩形区域的所有节点。每一个集中于一个节点k=1,2,···,K的领域定义了图中的一个极大团X(k)。Hammersley-Clifford定理证实我们可以将这个图示模型的概率密度写成吉布斯分布其中X是一个图像,是派系X(k)的势函数。我们额外假设MRF是其次的;即对于所有的团是函数是相同的(换句话说)。这个性质导致了MRF模型的平移不变性。不失一般性,我们假设MRF的极大团的极大团是固定大小的正方形像素块;另外,非正方形领域也可以使用。

我们不是手动定义势函数V,而是从训练数据中学习获得。为了实现这一点,我们使用一个和(1)有相同基本形式的专家乘积来代表MRF势。更正式地,我们使用(2)中地能量项来定义势函数,即总的来说,我们因此将FoE模型下的全图像的概率密度写成

其中在之前已经被定义。与(1)中的PoE模型的重要区别是,我们这里在所有领域k上作乘积。

这个模型克服了我们上面提到的所有问题:参数的数量仅仅取决于MRF中极大团的大小和定义势的滤波器的数量。此外,由于势函数的齐次性,这个模型适应于任意大小的图像,而且具有平移不变性。

值得注意的是,计算分割函数是棘手的。然而,大多数推论算法,例如在第四节提到的,不需要知道这个归一项。这个模型和[24]的区别在于它对图像碎片的重叠进行了明确的建模。这些重叠的图像碎片是高度相关的,学习后的滤波器必须对这种相关性做出解释。我们将得到的平移不变PoE模型成为FoE模型,来强调全图像的概率密度是如何涉及重叠局部专家的组合的。

3.2对比散度学习

参数和线性滤波器可以通过最大似然,从一组D个训练图像中学习获得。PoE模型和FoE模型的最大似然等价于最小化模型和数据之间的Kullback-Leibler散度,从而保证模型分布尽可能接近于数据分布。因为参数没有闭合形式解,我们执行一个梯度上升的对数似然。这导致参数被如下公式更新其中η是用户定义的学习率,表示在训练数据X上的均值,是关于模型分布p(x)的期望值。尽管训练数据上的平均值容易计算,但是对于模型分布的期望值没有一般的闭合形式的解。然而,使用蒙特卡罗积分,通过使用MCMC采样反复从p(x)中抽取样本,可以近似计算这个期望值。在我们的实现中,我们使用了一个HMC采样器[17],比很多标准采样技术,例如Metropolis采样,更有效。HMC采样器的优势在于它使用了对数密度的梯度来更有效地探测空间。

尽管使用高效的MCMC采样策略,按照这种方式训练一个模型仍然不是很实用,因为它可能会花很长时间直到马尔科夫链近似收敛。我们使用对比散度[12]的思想来在数据点初始化采样器,而且仅仅运行很少、固定数量的步数,来代替运行马尔科夫链知道收敛。如果我们将数据分布表示成,经过j次MCMC迭代之后的分布为,则对比散度更新公式如下这里从直觉来讲,从数据分布开始运行MCMC采样器经过几次迭代,将会使样本更接近于目标分布,这足够用来估计参数更新。Hinton[12]更正式地证明了这一点,并表明对比散度学习是一个典型的参数的最大似然估计的一个很好的近似。

3.3实现细节

为了正确捕获相邻团(或者图像碎片)的空间依赖,训练数据集中的图像大小应该充分大于团的大小。在另一方面,大图像可能会使所需的MCMC采样效率低下。我们在2000张任意复制的图像区域上训练这个模型,其中每个图像区域的宽度和高度都是极大团的三倍(即,对于5*5的团,我们训练15*15的图像)。我们又从Berkeley Segmentation数据库选取了50张图片作为训练数据(自然景观、人、建筑等等)。Welling等人[24]特别指出,在他们的PoE模型中滤波器学习常常得益于数据分布的白化,因为这消除了由于图像碎片的非球形协方差而产生的潜在的缩放问题。为了避免相似的问题出现在我们的模型中,在计算过滤器更新之前,我们将一个白化转换应用到所有的团像素。此外,这个变换忽略了对团的平均灰度水平的任何改变,从而使过滤器的维度减少了1。我们通过更新他们的对数来强迫的正性。然而,我们发现在没有这个约束的情况下,算法也可以工作。在我们的实验中,我们具有1次HMC采样的对比散度。每一个HMC步骤包含30个跳变:跳变的大小可以自动地调整,所以接受率将近90%。在η=0.01的情况下,我们执行了3000更新步骤。我们发现结果对于学习率地精确数值和对比散度步骤地数量不是很敏感。图表3展示了在5*5像素团上训练FoE模型所学习到的24滤波器地一组选集。这些滤波器在不同的方向和尺度上响应多种边界和纹理特征,如下所示,也可以捕获图的重要结构属性。然而,他们似乎缺乏了使用标准PoE模型所学习到的滤波器所具有的清晰可解释的结构(如图2).这也许是因为这些滤波器不得不去解释重叠碎片的相关图像结构。

训练FoE模型需要大量计算,但是可以离线。正如我们看到的那样,有一些相对高效的近似推理算法可以使FoE模型的使用变得实际。

4.应用和实验

有很多计算方法将MRF模型应用到图像去噪和其他应用领域。这些方法包括吉布斯采样、确定性退火、平均场方法、置信度传播算法、非线性扩散,以及相关的PDE方法[23]。索然吉布斯采样器有形式收敛性,但是需要大量计算。相反,我们推出了一个基于梯度上升的近似推论,在实际中表现良好。

4.1图像去噪

目前,文献中最精确的去噪方法都属于微波“去核”的范畴,其中图像满足1)使用一大堆不同方向和尺度的小波进行分解;2)微波系数基于他们的先验概率被修改;3)图像通过反转微波变换被重构。为了了解一个对最新技术的优秀的回顾和定量的评估,请见[20]。这些方法中的最精确方法模拟了微波系数的边缘统计特性是非高斯分布的,以及在空间或尺度上的相邻的系数不是独立的的事实。Portilla等人[20]使用高斯尺度混合来建模了这些依赖,推出一个贝叶斯解码算法,貌似是这类算法中最精确的。他们使用了一些预先确定的过滤器,手工选择了一些相邻的参数(例如在相邻尺度上),经直觉和经验证据表明,在统计上独立。

和上面的方案相比,我们关注的是以一个带有空间先验项的贝叶斯方程。已知一个观察到的图像y,我们的目标是找到使得后验概率最大化的真实的图像x。与去噪文献中常见的一样,我们假定真是图像是被加性破坏了,即均值为0、标准差已知的高斯噪声。因此,我们把可能性写成其中j是遍历图像中的像素。只要噪声分布是已知的(并且对数是可微的),我们的方法就可以推广到其他的噪声分布。

使一个图形模型的后验概率最大化通常是困难的。为了强调被提出模型的实用性,我们避免使用昂贵的推理技术。相反,我们对后验概率的对鼠执行梯度上升。对数概率的梯度可以写成。幸运的是,对数先验的梯度也可以非常简单的计算,如下,其中表示图像x和滤波器Ji的卷积。我们也定义,让表示Ji围绕中心像素做镜像所得到的滤波器[26]。注意,当有很重的尾部时使一个标准鲁棒误差函数,和它的影响函数成比例[4]。

通过引入一个迭代指标t、更新率η和可选权重λ,我们可以把梯度上升去噪算法写成。正如被Zhu和Mumford【26】发现的那样,这和非线性扩散方法有关。如果我们只有两个滤波器(x和y的导数滤波器),那这个等式相似于带有数据项的标准非线性扩散过滤。尽管两种方法的去噪过程非常相似,但是我们的先验模型比非线性扩散使用了更多的滤波器。FoE模型的关键优势在于,它告诉我们如何以一个有条理的方式,构建一个在更大的领域上结合更多的滤波器的更丰富的先验模型。

去噪实验

在Berkeley数据库上使用按照之前章节那样训练的FoE模型,我们执行了很多去噪实验。这里进行的实验假定噪声分布是已知的。将我们的成果扩展到“盲”去噪,例如使用健壮数据项或者自动停止标准,将仍然是未来工作的主题。我们使用一个带有24个5*5像素的滤波器的FoE先验。我们在0.02和1之间选择更新率η,仅仅依赖于添加的噪声的数量,并且执行2500迭代。当加速收敛时,大更新率可能会导致数值不稳定,实验中在η小于0.02时消失。然而,我们发现用大步长运行并随后使用η=0.02的250次迭代“清理”图像的效果,与仅仅使用η=0.02的去噪相比不会更糟。实验上,我们发现对似然项附加一个权重λ可以获得最好的结果,这依赖于添加噪声的数量。我们使用和训练FoE模型相同的数据集,为每个噪声水平自动学习最佳的λ值。这是通过在一个小的λ候选值的集合中选择最佳值来实现的。

得到两组图像的结果。第一组包含了在去噪实验中常用的图像[20]。表1提供了这个图像集的带有不同级别的加性高斯噪声的峰值信噪比(),以及使用FoE模型去噪之后的信噪比。Poertilla等人[20]报告了这些测试图像的最精确结果,他们的方法经过调整在这个数据集上表现良好。我们获得的信噪比和他们的结果相近(大多在0.5dB内),在一些情况下甚至超过他们的结果(大约0.3dB)。就我们所知,在这个数据集上,没有其他的MRF方法可以和这个基于微波的方法匹敌。还有注意的是,先验没有根据这些例子进行训练或者调整。我们期望使用更多或者更大的滤波器,以及更好的MAP估计技术将会进一步改善这些结果。

为了测试更多样化、更真实地图像,我们第二个数据集进行了去噪,这个测试集由68张来自Berkeley数据集地测试部分组成。为了多样化地噪声水平,我们使用了FoE模型、[20]中地方法(使用[1]提供的软的默认的设置)、简单Wiener滤波和一个带有数据项的标准非线性扩散方案进行图像去噪。最后一个方法使用了一个鲁棒Huber函数,可以被看作成一个仅仅使用了局部一阶导数滤波器的MRF模型。对于这个标准的非线性扩散方案,先验项的λ权重像在FoE模型中那样被训练,停止时间被选择来产生最优的去噪结果(按照PSNR)。图4展示了每一种方法的在一张图片上的表现(除了Wiener滤波器)。视觉上和定量上,FoE模型比Wiener滤波器和非线性扩散都要好,而且几乎比得上专业的微波技术。

图5展示了在具有多种噪声的68张测试图像上,提到的去噪方法的性能对比。除了PSNR,我们还计算了一种更基于视觉的相似测量方法(SSIM)[22]。FoE模型始终优于Wiener滤波器和标准的非线性扩散,同时接近地比得上目前最先进技术[20]的性能。签名秩检验表明,在95%置信水平下,FoE与其他方法的性能差异具有统计学意义(最高噪声水平下非线性扩散的SSIM除外)。

4.2图像修复

在图像修复[3],目标是在不影响整体的视觉外观的情况下去除图像的某些部分,例如照片的划痕或者不想要的遮挡对象。通常,用户提供一个需要被修复的像素掩膜。过去的方法,例如[3],使用了一种扩散的形式来填充掩膜像素。这表明,我们提出的用来去噪的扩散方法也适用于这个掩膜。和去噪相比,我们仅仅修改被掩膜所指定的像素子集。这些像素没有被观察,因此没有似然项可以使用。我们的简单修复算法仅仅使用FoE先验进行传播信息:。在这个更新方案中,掩膜M将掩膜区域之外的所有像素的梯度设为0。和其他算法相比,我们没有显式地使用局部梯度方向;局部结构信息仅仅来自于学习滤波器组的响应。滤波器组和与去噪实验中的一样。

Levin等人[15]有相同的动机,他们利用图像统计的学习模型来修复图像。然而,他们的方法依赖于一些手动选择的用来训练待修复图像的模型的特征。相反,我们使用一般的先验,将来自于更多的自动决定的特征的信息结合起来。

图6展示了这种修复方案应用于文本删除的结果,其中掩膜对应于被文字遮挡的所有像素。我们将颜色图像转换成YCbCr颜色模型,将算法独立地应用于三个通道。因为先验是在灰度图像上被训练的,所以这显然不是最优的,但是仍然可以得到好的结果。为了加速收敛,我们在η=10的情况下运行了500次迭代。因为这种大步长可能会导致数值不稳定,多以我们又在η=0.01的情况下使用250次迭代来“清理”图像。

修复结果(图6(b))和原图非常接近,而且定性来讲比[3]中的那些结果要好。定量来讲,我们的方法将PSNR大约提高了1.5dB(29.06dB对比于27.56dB);[22]的图像相似指标也有了明显的改善(0.9371对比于0.9167,越大越好)。相比于[3],丰富先验的优势可以更好地保留边缘地连续性。图6(c)展示了一些细节区域上我们地算法(中)和[3](右)地对比。类似地定性差异可以在重构图像地很多部分看到。

5.总结和结论

尽管马尔可夫随机场由于其形式性质在机器视觉领域流行,但是他们呢对复杂自然场景地建模能力有限。为了实用地对丰富图像先验建模,我们拓展了稀疏图像碎片编码,来模拟捕获局部图像统计特征的齐次马尔可夫随机场的势。最后得到的FoE模型是基于一组丰富的学习滤波器,该组滤波器在一般图像数据库上实用对比散度的方法训练。和以前使用预先确定的滤波器的方法对比,模型的所有参数包括滤波器,都是从数据中学习获得。最后得到的概率模型可以被使用在任何需要空间图像先验的贝叶斯推论方法中。我们已经通过去噪和图像修复来证明FoE模型的有用性。去噪算法是简单明确的(大约20行MATLAB代码),但是其性能接近于最好的专门去噪的微波算法。和微波算法相比,我们的算法的优势是图像先验的一般性以及可用于不同的视觉问题。我们相信这里的结果代表了MRF模型的使用前进了重要一步,将会被广泛应用。

未来的研究有很多途径。通过使MRF模型更加丰富,许多问题可以在改进结果的期望中重新被讨论。我们当前的工作关注于光流、场景深度、颜色图像和目标轮廓的学习先验模型。这里的结果可以被应用于图像超分辨率、图像锐化和图形应用,例如基于图像的渲染[6]等等。

有很多途径可以更加详细地研究FoE模型本身,比如团的大小和滤波器地数量如何影响先验地品质。此外,使用固定滤波器(例如标准的导数滤波器或者甚至随机滤波器)来探索FoE模型会很有趣,其中只有专家参数需要从数据中学习。学生-t专家分布也可能被其他地分布取代,被某种更合适的形式。最后,我们提出的类似扩散的算法的收敛和相关性质需要进一步研究。

致谢    We thank S. Andrews, A. Duci,Y. Gat, S. Geman, H. Haussecker, T. Hoffman, O. Nestares,H. Scharr, E. Simoncelli, M. Welling, and F. Wood for helpful discussions; G. Sapiro and M. Bertalm´ıo for making their inpainting examples available for comparison; and J. Portilla for making his denoising sofware available. This work was supported by Intel Research, NSF ITR grant 0113679 and NIH-NINDS R01 NS 50967-01 as part of the NSF/NIH Collaborative Research in Computational Neuroscience Program. Portions of this work were performed by the authors at Intel Research.

 

 

 

 

 

 

 

 

 

 

 

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值