Deep Image Prior (Paper reading)
Dmitry Ulyanov, Skolkovo Institute of Science and Technology, Russia, CVPR2018, Cited: 1966, Code, Paper.
1. 前言
深度卷积神经网络可以从大量的图像中学习到真实图像先验的能力。先验是我们对世界的基本假设。例如,我们假设一枚硬币抛出50%正面和50%反面,这是我们的先验。这种先验并不总是正确的,但大多数时候是正确的。同样,我们假设自然图像是无噪声和无孔洞的,这也是我们的先验。因此,本文提出了一种用于去噪和修复应用的深度图像先验思想。该论文反驳了监督学习对于建立良好的图像先验是必要的这一观点。它们表明,生成器网络的结构就可以在不需要学习就能捕获大量low-level图像统计信息。本文展示了一个随机初始化的神经网络用作手工制作的先验,在去噪,超分和修复等标准逆任务上具有出色的表现。
2. 整体思想
简单来说,使用一个生成器从随机噪声开始迭代生成降质图像 y y y的过程中,生成器会先学习先验分布,在学习破坏图像,因此,在生成器破坏图像之前终止迭代,就可以获得清晰图像。
3. 方法
深度网络学习一个生成器/解码器 x = f θ ( z ) x=f_{\theta}(z) x=fθ(z),通过映射随机变量 z z z到图像 x x x,来生成图像。这个方法可以用于从随机分布中采样真实的图像。本文聚焦于分布是corrupted观测 y y y来解决去噪,超分等问题。
考虑逆问题的最优化任务:
x
∗
=
min
x
E
(
x
;
y
)
+
R
(
x
)
(1)
x^{*}=\min_{x}E(x;y)+R(x) \tag{1}
x∗=xminE(x;y)+R(x)(1)
其中,第一项是依赖于具体应用的数据项,第二项通常是捕获图像先验的正则项。正则项可以是图像的Total Variation,本文的正则项
R
(
x
)
R(x)
R(x)选择使用神经网络(U-Net)来获得,当网络可以生成图像时,
R
(
x
)
=
0
R(x)=0
R(x)=0,其他则
R
(
x
)
=
+
∞
R(x)=+\infty
R(x)=+∞,因此优化器定义为:
θ
∗
=
arg min
θ
E
(
f
θ
(
z
)
;
y
)
,
x
∗
=
f
θ
∗
(
z
)
(2)
\theta^{*}=\argmin_{\theta}E(f_{\theta}(z);y), \quad x^{*}=f_{\theta^{*}}(z) \tag{2}
θ∗=θargminE(fθ(z);y),x∗=fθ∗(z)(2)
下图说明了主要思想。给定噪声图像
y
y
y,使用梯度下降优化卷积神经网络(例如U-Net),以生成噪声图像的先验-去噪图像
x
∗
x^{*}
x∗。神经网络的输入是固定的3D张量
z
z
z。输入张量具有32个特征图,并且具有与
x
x
x相同的空间维度。
我们假设我们的网络可以有效良好的生成图像,因此公式1的优化目标变,也就是最终的损失函数为:
L
=
∣
∣
f
θ
(
z
)
−
y
∣
∣
2
=
∣
∣
x
∗
−
y
∣
∣
2
(3)
L=||f_{\theta}(z)-y||^{2}=||x^{*}-y||^{2}\tag{3}
L=∣∣fθ(z)−y∣∣2=∣∣x∗−y∣∣2(3)
当训练神经网络时,我们倾向于寻求全局最小值。对于这个损失函数,全局最小值意味着重新生成一个有噪声的图像,即,当
x
∗
=
y
x^{*}=y
x∗=y时,
L
=
0
L=0
L=0。这是由于神经网络的巨大过拟合能力而导致的。为了避免这种全局最小值,本文提前终止了优化过程。在达到全局最小解之前,生成的图像
x
∗
x^{*}
x∗要么收敛到近似的局部最优值,要么至少其优化轨迹接近最优的。这一论点提出了一个关键问题:何时终止或终止标准是什么? 本文没有说明这个问题。提前停止不是一个具体的解决方案。下图显示了优化迭代次数对生成的图像先验
x
∗
x^{*}
x∗的影响。它显示了在2400次迭代之后,在网络过度填充损坏的图像之前,如何达到nice-looking的局部最优。幸运的是,后续论文A Bayesian Perspective on the Deep Image Prior链接解决了终止标准的限制。
这种方法的另一个挑战是计算复杂性。根据论文,每幅图像需要几分钟的GPU计算。这种想法的核心优点之一是不需要标签,是一种无监督学习方法。作者多次说明,生成的先验图像的质量取决于网络架构。此外,这是一篇18年的文章,当时的算力和网络模型和现在具有很大差距。
5. 总结
想法简单实用,效果在18年可以说是无监督中较好的了,缺点是计算量大,耗时长,但是在后面基于Langevin动力学的方法中被解决。性能与生成网络的选择有关。最近的扩散模型同样是基于先验的思想的生成器,和本文的思想感觉也很相似。