译Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis

最新推荐文章于 2022-11-02 12:38:54 发布

wangxc_123

最新推荐文章于 2022-11-02 12:38:54 发布

阅读量3k

点赞数 2

分类专栏：机器学习文章标签：神经网络图像合成

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

基于马尔科夫随机场和卷积神经网络组合的图像合成（Image Synthesis）

摘要
这篇文章研究了用于生成2D图像的生成马尔科夫随机场模型MRF和有分辨能力的已训练的深度卷积神经网络dCNNs的组合。生成马尔科夫随机场模型作用在dCNN的高层特征上，在抽象层次控制了图像的布局。我们在照片和非照片上都使用了这个方法进行合成任务。MRF正则项（regularizer）阻止了过激失真artfacts，减少了dCNN中常见的倒置inversion的方法中的不合理的implausible特征混合，增加了合成照片内容的合理性。和标准的MRF-based纹理合成不同，这个组合的模型可以在相当大的可变性下匹配和适应原图特征，产生远非经典生成马尔科夫模型的结果。

1.介绍（略）

我们的论文增强了Gatys的框架，通过用一个维持图像纹理风格的MRF正则项来代替统计学重的克莱默矩阵匹配。

2.相关工作

神经网络图像合成

MRF_based图像合成

3.模型

我们讨论用于生成图像的组合MRFs和dCNNs的模型。我们假设我们有一个风格图像，记为 $\mathrm{x}_s\in\mathbb{R}^{w_s\times h_s}$ ，和一个内容图片 $\mathrm{x}_c\in\mathbb{R}^{w_s\times h_s}$ 作为指导。待合成的图像被记为 $\mathrm{x}\in\mathbb{R}^{w_s\times h_s}$ 。我们转化风格 $\mathrm{x}_s$ 到内容 $\mathrm{x}_c$ 的布局，通过使高层的神经译码 $\mathrm{x}$ 和 $\mathrm{x}_c$ 相似，但是使用和 $\mathrm{x}_s$ 相似的斑纹。后者是MRF优先的，维持风格的译码。正式的， $\mathrm{x}$ 将下列的能量函数最小化了：

x = arg min x E s (ϕ (x), ϕ (x s)) + α 1 E c (ϕ (x), ϕ (x c)) + α 2 γ (x)

$\mathrm{x}=\arg\underset{x}{\min}\,{E_s(\phi(\mathrm{x}),\phi(\mathrm{x}_s))+\alpha_1E_c(\mathrm{\phi(x),\phi(x_c)})+\alpha_2\gamma(\mathrm{x})}$

Es $E_s$ 记为风格损失函数（MRFs限制）,在这里

ϕ(x) $\phi(\mathrm{x})$ 是

x $\mathrm{x}$ 取自网络中一些层的特征图像。

Ec $E_c$ 是内容损失函数。它计算了生成图像和内容指导图像的特征图像之间的平方距离。就像[7,20]中写的那样，最小化

Ec $E_c$ 生成了一个在结构脉络上和内容图像相关的图片。附加的正则项

γ(x) $\gamma(\mathrm{x})$ 是在重建上进行平滑优先的。接下来，我们解释这些项在细节上是如何定义的。 MRFs损失函数将

ψ(ϕ(x)) $\psi(\phi(\mathrm{x}))$ 记为所有从

ϕ(s) $\phi(\mathrm{s})$ 中抽取的原图纹理列表，一系列

x $\mathrm{x}$ 的具体特征图。每一个中性纹理被索引为

ψiϕ(\mathrx) $\psi_i\phi(\mathr{x})$ ，形状为

k×k×C $k\times k\times C$ ，这这里k是path的宽和高，C是这一层卷积核的个数。我们定义能量函数为：

E s (ϕ (x), ϕ (x s)) = \sum i = 1 m ‖ ψ i (ϕ (x)) - ψ N N (i) (ϕ ((x s))) ‖ 2

$E_s(\mathrm{\phi(x),\phi(x_s)})=\sum_{i=1}^m\Arrowvert\psi_i(\phi(\mathrm{x}))-\psi_NN(i)(\phi(\mathrm(x_s)))\Arrowvert^2$
这里m是

ψ(ϕ(x)) $\psi(\phi(\mathrm{x}))$ 的基数。从每一个path

ψi(ϕ(x)) $\psi_i(\phi(\mathrm{x}))$ ，我们反响最好的匹配path是

ψNN(i)(ϕ(x)) $\psi_NN(i)(\phi(\mathrm{x}))$ ，使用规范化交叉相关系数在所有

ψ(ϕ(x)) $\psi(\phi(\mathrm{x}))$ 的

ms $m_s$ 例子path中：

N N (i) : = arg min j = 1, . . ., m s ψ i ( ϕ ( x ) ) ψ ˙ j ( ϕ ( x ) ) ⏐ ψ i ( ϕ ( x ) ) ⏐ ∙ ⏐ ψ i ( ϕ ( x ) ) ⏐

$NN(i):=\arg\underset{j=1,...,m_s}{\min}\,\frac{\psi_i(\phi(\mathrm{x}))\dot\psi_j(\phi(\mathrm{x}))}{\arrowvert\psi_i(\phi(\mathrm{x}))\arrowvert\bullet\arrowvert\psi_i(\phi(\mathrm{x}))\arrowvert}$
我们使用规范化的交叉相关系数来实现可靠的不变形。这个匹配过程可以被一个附加的卷积层十分高效的执行。注意到，虽然我们使用规范化的交叉相关系数来寻找最好厄匹配，他们的欧式距离在式2中最小化，以生成一个看起来和参考风格香精的图片。
内容损失函数：

Ec $E_c$ 指引了图片的内容合成，通过最小化

ϕ(x) $\phi(\mathrm{x})$ 和

ϕ(xc) $\phi(\mathrm{x}_c)$ 之间的平方欧几里得距离：

E c (ϕ (x), ϕ (x c)) = ‖ ϕ ((x)) - ϕ ((x c)) ‖ 2

$E_c(\phi(\mathrm{x}),\phi(\mathrm{x}_c))=\Arrowvert\phi(\mathrm(x))-\phi(\mathrm(x_c))\Arrowvert^2$
正则化在网络的图像识别训练过程中，有很多有意义的底层图像信息丢失了。因此，从神经中译码进行图像的重建会有很多的噪声和不自然处。因为这一原因，我们惩罚平方梯度范数来将合成的图片平滑化：

γ (x) = \sum i, j ((x i, j + 1 - x i, j) 2 + (x i + 1, j - x i, j) 2)

$\gamma(\mathrm{x})=\sum_{i,j}((x_{i,j+1}-x_{i,j})^2+(x_{i+1,j}-x_{i,j})^2)$
最小化我们使用借助L-BFGS的反向传播来最小化等式1。特别的，

Es $E_s$ 关于特征图的的梯度是在

ϕ(x) $\phi(x)$ 和他们使用的来自于

ϕ(x)s $\phi(x)_s$ 的MRFs-based重建块之间的逐元求导。这样一个重建是重要的纹理优化过程，使用神经网络块而非像素块。这对在神经层次的MRF能量优化是非常重要的，因为传统的像素基础的纹理优化将不能产生可比较的生成结果。
权重

α1 $\alpha_1$ 和

α2 $\alpha_2$ 分别是内容约束和自然图像约束的系数。我们是前者为0，来进行无指导生成。默认的，我们让前者为1进行风格转化，虽然使用者也可以很好的调试这个值，来修改内容和风格。后者固定为0.001.

原文参考

wangxc_123

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
译Combining Markov Random Fields and Convolutional Neural Networks for Image Synthesis

基于马尔科夫随机场和卷积神经网络组合的图像合成（Image Synthesis）摘要这篇文章研究了用于生成2D图像的生成马尔科夫随机场模型MRF和有分辨能力的已训练的深度卷积神经网络dCNNs的组合。生成马尔科夫随机场模型作用在dCNN的高层特征上，在抽象层次控制了图像的布局。我们在照片和非照片上都使用了这个方法进行合成任务。MRF正则项（regularizer）阻止了过激失真artfacts，
复制链接

扫一扫