文章链接-1705.08041.pdf (arxiv.org)
贝叶斯模型学习:一文搞懂数据分析经典模型:贝叶斯模型 - 知乎 (zhihu.com)
摘要:计算成像、传感和低级计算机视觉的核心问题是从已知物理成像模型下的测量中提取遵循先验分布的潜影的逆问题。传统上,手工构建的先验知识和迭代优化方法被用来解决此类问题。在本文中,我们提出了深先验展开优化,这是一个受经典迭代方法启发,将图像形成知识注入解决成像逆问题的深网络的原则框架。我们发现,对于各种各样的成像问题,例如去噪、去模糊和压缩感知磁共振成像(MRI),该框架的性能远远优于最新技术。此外,我们还进行了实验,解释了如何最好地使用该框架,以及为什么它优于以前的方法。
1 引言
在逆成像问题中,我们试图从已知物理成像条件下的测量结果重建潜影。这种逆问题出现在计算摄影、计算机视觉、医学成像和科学成像中。它们位于每个自主视觉系统的早期视觉层中,对于所有基于视觉的自主代理来说都是必不可少的。近年来,在解决成像逆问题的经典方法和深层方法方面都取得了巨大进展。经典方法和深层方法各有优缺点。基于形式优化的经典算法以原则性的方式利用图像形成模型的知识,但难以将复杂的自然图像学习模型结合起来。深度方法很容易学习自然图像的复杂统计信息,但缺乏系统的方法来整合图像形成模型的先验知识。缺少的是一个设计包含先验信息的深层网络的总体框架,以及对先验信息何时有用的清晰理解。
在本文中,我们提出了深先验展开优化(ODP):一个将先验知识整合到深度网络中的原则性通用框架。我们重点讨论该框架在成像逆问题中的应用。给定一个映像形成模型和一些通用的高级设计选项,ODP框架提供了一个易于训练的高性能网络体系结构。该框架提出了一种新的网络体系结构,在各种成像问题上都优于以前的工作。
ODP框架基于展开优化,其中我们截断了一个经典的迭代优化算法,并将其解释为一个深度网络。展开优化在成像从业者中是一种常见做法,最近,针对各种成像应用探索了训练展开优化模型,所有这些都使用了专家领域先验的变体[12,21,5,24]。我们与现有方法的不同之处在于,我们提出了展开优化方法的一般框架,以及展开优化中的深度卷积先验结构。通过在展开的优化体系结构中训练深入的CNN先验知识,ODP实例在各种逆成像问题上的表现优于最先进的结果。
我们的实证结果阐明了在深层网络中为逆问题编码先验信息的好处和局限性。(近似)反转图像形成算子的层非常有用,因为它们将重建任务简化为去噪和校正反转层引入的伪影。另一方面,前几层改进了网络泛化,提高了看不见的图像形成算子的性能。对于去模糊和压缩感知MRI,我们发现在许多图像形成算子上训练的单个ODP模型优于为每个算子训练专门模型的现有最先进方法。
此外,在给定线性图像形成模型的情况下,我们提供了关于迭代算法最适合展开优化的开放性问题的见解。我们的主要发现是,每次迭代(近似)反转成像算子的简单原始算法表现最好。
总之,我们的贡献如下:
1. 我们介绍了ODP,这是一个用于成像逆问题的原则性通用框架,它将成像的先验知识整合到深度网络中。
2. 我们证明了用于去噪、去模糊和压缩感知MRI的ODP框架的实例大大优于最先进的结果。
3. 我们提供了关于如何最好地使用ODP框架和相关方法的经验得出的见解,例如当利用先验信息是有利的,以及哪些优化算法最适合展开。
2 动机
贝叶斯模型 提出的ODP框架的灵感来自于在贝叶斯模型下通过最大后验概率(MAP)估计解决成像逆问题的大量工作。在贝叶斯模型中,从先验分布中提取未知图像Ω(θ)参数θ。成像系统对该图像应用线性算子a,表示捕获中的所有光学过程,然后测量传感器上的图像y,该图像y来自噪声分布ω(Ax),该分布模拟传感器噪声(例如读取噪声)和信号本身的噪声(如光子散粒噪声)。
设P(y | Ax)是从ω(Ax)中采样y的概率,P(x;θ)是从ω(Ax)中采样x的概率Ω(θ). 然后,未知图像x产生观测值y的概率与P(y | Ax)P(x;θ)成正比。
x的最大后验概率点估计由等效公式给出:x=argmaxx P(y | Ax)P(x;θ) (1)
其中数据项f(y,Ax)=− logP(y | Ax)和前项r(x,θ)=− logP(x;θ)是负对数概率。因此,计算x需要解决一个优化问题[3,第7章]
展开迭代法 对于不同的凸数据项和先验(例如FISTA[1]、ChambollePock[4]、ADMM[2]),已经开发了大量算法来有效地解决问题(1)。这些算法中的大多数是迭代方法,其中映射Γ(xk,a,y,θ)→ 重复应用xk+1以生成一系列迭代,这些迭代从初始点x0开始收敛到解x*。
迭代方法通常基于一个停止条件终止,以确保理论收敛性。
另一种方法是执行预先确定的迭代次数N,换句话说,展开优化算法。
这种方法的动机是,对于许多成像应用来说,精度非常高,例如,收敛度低于10−6对于每个局部像素状态,在实践中都不需要,这与例如控制中的优化问题相反。通过固定迭代次数,我们可以将迭代方法视为一个显式函数ΓN(·A,y,θ)→ 初始点x0的xN。θ等参数可能在所有迭代中都是固定的,也可能随着迭代而变化。展开的迭代算法可以解释为一个深度网络[24]。
参数化 展开迭代算法中的参数θ是算法超参数,例如步长,以及定义先验知识的模型参数。
通常,算法超参数的数量很小(每次迭代1-5个),因此展开算法的模型容量主要取决于先验知识的表示。
许多有效的迭代优化方法不直接与先验项r相互作用,而是通过其(次)梯度或近端算子proxr(·θ)最小化r,定义为
近端算子是欧氏投影的推广。在ODP框架中,我们建议直接参数化r的梯度或近端算子,并隐式定义r。
3 深先验展开优化
我们提出了ODP框架,将图像形成的知识整合到深度卷积网络中。该框架将网络分为数据步骤和CNN步骤,数据步骤是测量值y的函数,前者编码有关图像形成模型的先验信息,后者表示统计图像先验信息。因式分解遵循一种受经典优化方法启发的原则性方法,从而将深度模型和经典算法的优点结合起来。
3.1 框架
ODP框架由算法1中的网络模板总结。模板中的设计选项是优化算法,它定义了数据步骤Γ和算法状态zk,算法展开的迭代次数N,根据测量值y初始化算法的函数φ,以及前一步中使用的CNN,其输出x k+1/2表示∇r(xk,θk)或proxr(·θk)(xk),取决于优化算法。图1显示了高斯噪声下去模糊的ODP示例。
图1:用于高斯噪声下去模糊的近梯度ODP网络,将观测值y映射为潜影x的估计值xˆ。这里F是DFT,k是模糊核,K是其傅里叶变换
ODP框架的实例有两种互补的解释。从基于经典优化方法的角度来看,ODP体系结构应用标准优化算法,但学习CNN定义的先验知识。从深度学习的角度来看,该网络是一个CNN,其层次根据图像形成模型定制。
ODP网络的动机是最小化问题(1)中的目标,但它们被训练为最小化更高级别的损失,该损失定义在网络输出和地面真实潜影之间的一个度量上,通过一组图像/测量对的训练集。图像的经典度量是均方误差PSNR或峰值信噪比SSIM。假设Γ(y,θ)是给定测量值y和参数θ的网络输出。然后我们通过(近似)求解优化问题来训练网络
其中θ是优化变量,l是选择的重建损失,例如PSNR,和Ω 是图像上的真实分布(与参数化近似相反)Ω(θ)).与经典图像优化方法相比,深度网络和展开优化的一个主要优势是能够直接针对预期重建损失进行训练。与自然图像训练集上的预训练先验知识相比,优化算法中的直接训练先验知识允许ODP网络学习特定于应用的先验知识,并在先验知识和数据步骤之间高效地共享信息,允许比经典方法少得多的迭代。
由于ODP接近于传统的CNN,我们可以使用为CNN开发的许多有效的基于随机梯度的方法(例如Adam[13])近似解决问题(2)。类似地,我们可以使用标准CNN初始化方案(例如,Xavier初始化[11])初始化与CNN先前步骤相对应的θ部分。训练ODP的剩余挑战是初始化与数据步骤Γ中的算法参数相对应的θ部分。然而,大多数优化算法每个数据步只有一个或两个参数,因此可以通过标准网格搜索找到有效的初始化。
3.2 设计选择
ODP框架使设计用于解决成像中的反问题的最先进网络变得简单。设计选择包括展开优化算法的选择、先验知识的CNN参数化和初始化方案。在本节中,我们将详细讨论这些设计选择,并根据第5节中的实证结果给出默认值。
优化算法 展开优化算法的选择在展开优化网络的性能中起着重要但鲜为人知的作用。唯一的形式要求是展开算法的每次迭代几乎处处可微。之前的工作已经展开了近端梯度法[5]、半二次分裂(HQS)算法[21,10]、交替方向乘子法(ADMM)[27,2]、Chambolle-Pock算法[24,4]、ISTA[12]和具有Bregman距离的原始-对偶算法[17]。对于哪种方法在总体上甚至在具体问题上表现最好,还没有达成明确的共识。
在解决问题(1)的背景下,我们提出了近似梯度法作为一个很好的默认选择。该方法要求能有效地计算g(x)=f(Ax,y)的近端算子及其雅可比矩阵。算法2列出了近似梯度法的ODP框架。我们将之前的CNN解读为−αk∇r(x,θk)。注意,对于近端梯度网络,CNN先验自然是一个残差网络,因为其输出Xk+1/2在步骤4中与其输入Xk求和。
在第5.5节中,我们将ODP的去模糊和压缩感知MRI结果与近端梯度、ADMM、线性化ADMM(LADMM)和梯度下降进行比较。ADMM、LADMM和梯度下降的ODP配方可在附录中找到。我们发现,所有的算法,大约反转图像形成算子每次迭代执行评价。对于展开优化方法典型的低迭代次数,采用拉格朗日乘子的ADMM和LADMM等算法充其量也比简单的原始算法(如近似梯度法和梯度下降法)略好。
CNN优先 将之前的每个步骤参数化为单独的CNN提供了极大的灵活性,甚至允许学习每个步骤的特定函数。算法2自然地将剩余连接引入CNN优先级,因此标准剩余CNN是合理的默认架构选择。第5节中的实验表明,该体系结构实现了最先进的结果,同时易于通过随机初始化进行训练。
在增加算法迭代次数N(这增加了数据和先前步骤之间的交替)和使CNN更深之间,选择CNN优先顺序是一种权衡。例如,在我们的实验中,我们发现,对于去噪,数据步长很小,较大的CNN先验和较少的算法迭代会产生更好的结果,而对于反褶积和MRI,数据步长是复杂的全局操作,较小的先验和较多的迭代会产生更好的结果。
初始化 初始化函数(x0;z0)=φ(f;A;y;θ0)理论上可以是任意复杂的算法或神经网络。我们发现,简单的初始化x0=AHy,即所谓的反投影,对于我们的应用程序来说已经足够了[23,第25章]。
4 相关工作
ODP框架概括并改进了之前关于展开优化和深度开发的工作逆成像问题的模型.
展开优化问题 为成像中的反问题构造展开优化网络时,一个直接的选择是将先验r(x;θ)参数化为r(x;θ)=|Cx|,其中C是一个滤波器组,表示给出的线性算子由Cx=(c1∗ x....cp*x),c1~cp表示卷积核。参数化的灵感来源于手工设计的先验,它利用了图像在特定(双重)基础上的稀疏性,例如各向异性全变差。具有学习稀疏性先验的展开优化网络已经取得了很好的效果,但由于选择了一个简单的“l1-范数”[12,24],其代表性受到限制。
专家领域 一种比已知稀疏性先验更复杂的方法是将先验梯度或近似算子参数化为专家域(FoE)g(Cx;θ),其中C再次是滤波器组,g是由θ参数化的可分离非线性,例如径向基函数的和[20,21,5,27]。ODP框架在经验上改进了FoE方法,如第5节中的模型比较所示,并且在理论上改进了FoE模型,因为FoE模型本质上是一个两层CNN,因此其代表性不如深层CNN先验。
直接反演的深度模型 最近的几种方法提出了直接解决特定成像问题的CNN。这些架构类似于ODP框架的实例,尽管设计动机截然不同。Schuler等人提出了一个用于去模糊的网络,该网络应用一个固定的反褶积步骤,然后是一个学习过的CNN,类似于ODP中的前一个步骤,具有不同的初始迭代[22]。Xu等人提出了一个用于去模糊的网络,该网络应用了一个学习的反褶积步骤,然后是CNN,类似于一次迭代ODP网络[26]。Wang等人提出了一种用于MRI的CNN,其输出与k空间中的观测值平均,类似于一次迭代的ODP网络,但没有联合学习先验和数据步骤[25]。我们通过ODP框架识别与经典优化方法的联系,并使用该框架设计更强大的多迭代体系结构,从而改进这些深层模型。
5 实验
在本节中,我们将介绍用于去噪、去模糊和压缩感知MRI的ODP网络的结果和分析。图2显示了各种逆成像问题的定性概述。有关每个实验的培训程序的详细信息,请参见附录。
图2:ODP网络结果的定性概述。
5.1 去噪
我们考虑具有图像形成y= x+z的高斯去噪问题,用z∼ N(0;σ2)。相应的贝叶斯估计问题(1)是
我们在[24]中的400个图像训练集上训练了一个4次迭代的近端梯度ODP网络,该网络具有10层64通道的残差CNN。表1显示,在[24]中评估的68个图像测试集上,ODP网络优于所有最先进的方法。
5.2 去模糊
我们考虑联合高斯去噪和去模糊的问题,其中潜图像X与已知模糊核卷积,并且被高斯噪声破坏。成像模型为y=k∗ x+z,其中k是模糊核,z∼ N(0;σ2)。相应的贝叶斯估计问题(1)是
为了证明专门针对特定问题实例的ODP网络的好处,我们首先按照[26]中的建议,对每个内核进行模型训练。具体来说,我们训练了8个迭代近梯度ODP网络,剩余的5层64通道CNN先验用于失焦磁盘核和运动模糊核[26]。继Xu等人之后,我们在ImageNet[8]上对每个内核训练一个模型,包括作者要求的剪辑和JPEG工件。表2显示,ODP网络在低通磁盘内核上的表现略优于先前的工作,后者完全去除了高频内容,而运动模糊内核则获得了可观的增益,后者保留了更多的频率内容,因此受益于ODP中的逆图像形成步骤。
接下来,我们展示了ODP网络可以在图像形成模型中推广。表3比较了[22]中测试场景下的ODP网络(与上述架构相同)。我们在[22]中为四个失焦内核和相关噪声级训练了一个ODP网络。失焦模型与Sululet等人相一致,即使舒勒等人为每个内核训练一个专门的模型和相关的噪声水平。我们在随机生成的运动模糊核上训练了第二个ODP网络。该模型在看不见的测试集运动模糊核上优于Schuler等人,尽管Schuler等人在测试集中专门训练了运动模糊核。
5.3 压缩感知MRI
5.4 先验信息的贡献
5.5 比较算法
6 结论