https://www.polyv.net/news/2017/06/hy0025/
问题
虽然这些评价指标与人类感知的相关性已经改善,但它们仍然不能提供一个完全令人满意的替代MSE训练的神经网络(NN)的SR
做法
我们开发了SR中的近似映射推理方法。
首先引入了一个神经网络的结构限制,将模型输出投影到有效解的仿射子空间。
然后,提出了三种方法,基于GANs,去噪或密度模型(使用最大概率训练图像先验的基线方法)。在SR中使用这种仿射投影摊销映射推理。
好处
在高维情况下,我们经验地发现,基于GAN的方法,AffGAN产生了视觉上最吸引人的结果。performing amortised variational inference.
最大后验(映射)推断,选择在图像先验下总是有高概率的解决方案,从而显得更可信。引入一下概率。利用这个架构,我们证明了训练映射推理模型可以减少交叉熵的最小化
但是,已知在多峰和非平凡分布(例如自然图像上的分布)具有不确定性的情况下,MSE和一般的凸损失函数具有局限性。 在SR中,大量合理的图像可以解释LR输入,任何MSE训练模型的贝叶斯最佳行为都是根据其后验概率输出加权合理解的平均值。 对于自然图像,这种平均行为会导致模糊和过度平滑的输出,这些输出通常看起来难以置信,即,在自然图像之前,所产生的估计值具有较低的概率。
我们认为一个可取的方法是使用摊销最大后验概率(MAP)推理,在保留摊销推理的计算优点的同时,选择具有高后验概率的解,从而在图像先验下得到高概率的解。
说明了MSE和MAE可以在数据先验下产生非常低概率的输出,而映射推理总是可以找到定义在高概率区域的模式。
图像下采样是一个线性变换,可以建模为一条带状卷积
与任何图像兼容的HR图像y的集合x张成了一个仿射子空间。通过使用特定选择的线性卷积和反褶积层,我们可以实现这个仿射子空间的投影。
做了什么
(1)我们提出了生成对抗网络(GAN)的一种变体(Goodfellow et al., 2014),它近似最小化了kull背- leibler散度(KL)和qG与pY之间的交叉熵。我们还引入了一个我们称为实例噪声的技巧,它通常可以用于解决训练GAN的不稳定性。
(2)我们采用去噪作为一种方法来捕获自然图像统计。Bayes-optimal去噪近似学习采取梯度步骤沿对数概率分布的数据
(Alain & Bengio, 2014)。这些来自去噪的梯度估计可以直接通过网络反向传播,从而通过梯度下降最小化qG和pY之间的交叉熵。
(3)我们提出了一种方法,其中数据的概率密度是直接建模通过最大似然训练生成模型。我们使用基于PixelCNNs (Oord et al., 2016)和条件高斯尺度混合物(MCGSM, Theis et al., 2012)的可微生成模型,我们认为其性能非常接近这一领域的最新水平。
比使用经验风险最小化原则更理想的方法,是使用最大后验概率( Maximum a Posteriori, MAP) 推断。在图像先验的前提下,得到高像素图像的可能性更高,因此得出的图像往往更接近原图。
因此论文表示,在超分辨率处理过程中,直接对低像素图像进行最大后验概率估值是非常重要的,就像如果想要确保样图图像先验,就需要先构建一个模型一样地重要。想要进行摊销最大后验概率推断,从而直接计算出最大后验概率估值,本文在这一步引入的新方法是使用卷积神经网络。
而为了确保网络输入低分辨率图像后,能始终如一地输出相应的高分辨率图像,研究人员创造性地引入了新型神经网络架构,在这个网络里,有效解决超分辨率的方法是,向仿射子空间进行投影。使用新型架构的结果显示,摊销最大后验概率推理,能减少到两个分布之间的最小化交叉熵,这个结果与生成模型经过训练后得到的结果相类似。如何对结果进行优化,论文里提出了三种方法:
(1)生成式对抗网络 (GAN)
(2)去噪指导超分辨率,从去噪过程中反向推导去噪的梯度估值,从而训练网络
(3)基线法,该方法使用最大似然训练图像先验
“我们实验表明,使用真实图像数据,基于生成式对抗网络得到的图像最接近原图。最后,在变分自动编码器的举例中,成功建立了生成式对抗网络和摊销变异推断之间的联系。”