基于马尔科夫随机场和卷积神经网络组合的图像合成(Image Synthesis)
摘要
这篇文章研究了用于生成2D图像的生成马尔科夫随机场模型MRF和有分辨能力的已训练的深度卷积神经网络dCNNs的组合。生成马尔科夫随机场模型作用在dCNN的高层特征上,在抽象层次控制了图像的布局。我们在照片和非照片上都使用了这个方法进行合成任务。MRF正则项(regularizer)阻止了过激失真artfacts,减少了dCNN中常见的倒置inversion的方法中的不合理的implausible特征混合,增加了合成照片内容的合理性。和标准的MRF-based纹理合成不同,这个组合的模型可以在相当大的可变性下匹配和适应原图特征,产生远非经典生成马尔科夫模型的结果。
1.介绍(略)
我们的论文增强了Gatys的框架,通过用一个维持图像纹理风格的MRF正则项来代替统计学重的克莱默矩阵匹配。
2.相关工作
神经网络图像合成
MRF_based图像合成
3.模型
我们讨论用于生成图像的组合MRFs和dCNNs的模型。我们假设我们有一个风格图像,记为
xs∈Rws×hs
,和一个内容图片
xc∈Rws×hs
作为指导。待合成的图像被记为
x∈Rws×hs
。我们转化风格
xs
到内容
xc
的布局,通过使高层的神经译码
x
和
xc
相似,但是使用和
xs
相似的斑纹。后者是MRF优先的,维持风格的译码。正式的,
x
将下列的能量函数最小化了:
Es 记为风格损失函数(MRFs限制),在这里 ϕ(x) 是 x 取自网络中一些层的特征图像。 Ec 是内容损失函数。它计算了生成图像和内容指导图像的特征图像之间的平方距离。就像[7,20]中写的那样,最小化 Ec 生成了一个在结构脉络上和内容图像相关的图片。附加的正则项 γ(x) 是在重建上进行平滑优先的。接下来,我们解释这些项在细节上是如何定义的。 MRFs损失函数将 ψ(ϕ(x)) 记为所有从 ϕ(s) 中抽取的原图纹理列表,一系列 x 的具体特征图。每一个中性纹理被索引为 ψiϕ(\mathrx) ,形状为 k×k×C ,这这里k是path的宽和高,C是这一层卷积核的个数。我们定义能量函数为:
这里m是 ψ(ϕ(x)) 的基数。从每一个path ψi(ϕ(x)) ,我们反响最好的匹配path是 ψNN(i)(ϕ(x)) ,使用规范化交叉相关系数在所有 ψ(ϕ(x)) 的 ms 例子path中:
我们使用规范化的交叉相关系数来实现可靠的不变形。这个匹配过程可以被一个附加的卷积层十分高效的执行。注意到,虽然我们使用规范化的交叉相关系数来寻找最好厄匹配,他们的欧式距离在式2中最小化,以生成一个看起来和参考风格香精的图片。
内容损失函数: Ec 指引了图片的内容合成,通过最小化 ϕ(x) 和 ϕ(xc) 之间的平方欧几里得距离:
正则化在网络的图像识别训练过程中,有很多有意义的底层图像信息丢失了。因此,从神经中译码进行图像的重建会有很多的噪声和不自然处。因为这一原因,我们惩罚平方梯度范数来将合成的图片平滑化:
最小化我们使用借助L-BFGS的反向传播来最小化等式1。特别的, Es 关于特征图的的梯度是在 ϕ(x) 和他们使用的来自于 ϕ(x)s 的MRFs-based重建块之间的逐元求导。这样一个重建是重要的纹理优化过程, 使用神经网络块而非像素块。这对在神经层次的MRF能量优化是非常重要的,因为传统的像素基础的纹理优化将不能产生可比较的生成结果。
权重 α1 和 α2 分别是内容约束和自然图像约束的系数。我们是前者为0,来进行无指导生成。默认的,我们让前者为1进行风格转化,虽然使用者也可以很好的调试这个值,来修改内容和风格。后者固定为0.001.