Abstract
简单有力的结论:在没有明确的图像先验或者损坏的可能性模型的情况下,仅通过查看损坏的示例,在使用干净数据的训练中表现甚至有时超过训练,可以学习恢复图像。
实验表明:单个模型仅基于噪声数据就可以学习摄影噪声的去除、合成的蒙特卡洛去噪和欠采样MRI扫描的重建——这些被不同程度破坏图像。
Introduction
从损坏或不完整的测量中重建信号是统计数据分析的一个重要分支。深度神经网络的最新进展引发了人们对避免传统的、明确的先验信号损坏统计建模的极大兴趣,而不是学习将损坏的观测映射到未观察到的干净版本。
这是通过训练一个回归模型来实现的。例如卷积神经网络CNN,具有大量的数据对(
x
^
i
,
y
i
\hat{x}_{i},y_{i}
x^i,yi),其中
x
^
i
\hat{x}_{i}
x^i是损坏的输入,
y
i
y_{i}
yi干净的目标图像,然后最小化。
arg min
θ
∑
i
L
(
f
θ
(
x
^
i
,
y
i
)
)
(
1
)
\argmin \limits_{\theta}\sum \limits_{i}L(f_\theta(\hat{x}_i,y_i)) (1)
θargmini∑L(fθ(x^i,yi))(1)
其中
f
θ
f_\theta
fθ是映射的参数组,在损失函数L下。我们使用标记
x
^
\hat{x}
x^对于干净的目标来说是一个随机变量分布。训练数据可能包括比如相同场景的短曝光和长曝光的图片对,不完整和完整的核磁共振图片k空间采样,快但是有噪声的和慢但是收敛放射追踪。
在这片工作中,我们注意到我们通常可以通过查看不好的图片,学习把不好的图片变成好的图片,这种方法有时候和使用干净图片的效果差不多甚至更好。
进一步说,我们既不需要一个清楚的统计学似然模型,也不需要图片的先验。相反我们只需要从训练数据中间接的学习这些。(事实上,在我们的一个例子中,合成蒙特卡罗渲染,非平稳噪声不能被解析地表征。)除了去噪之外,我们的观察还可以直接应用于逆问题,例如从欠采样数据重建MRI。虽然我们的结论从统计学的角度来看几乎是微不足道的,但它通过提高对训练数据可用性的要求,显著简化了实际的学习信号重建。
Theoretical Background
假设我们有一组不可靠的室温观测值(
y
1
,
y
2
,
.
.
.
y_1,y_2,...
y1,y2,...)。一个估算真实的未知温度通常的策略是根据某个损失函数,寻找与测试值平均偏差最小的数字
z
z
z。
arg min
z
E
y
{
L
(
z
,
y
)
}
(
2
)
\argmin\limits_{z} E_y\{L(z,y)\} (2)
zargminEy{L(z,y)}(2)
对于
L
2
l
o
s
s
L
(
z
,
y
)
=
(
z
−
y
)
2
L_2 loss L(z,y)=(z-y)^2
L2lossL(z,y)=(z−y)2这个最小值是对于观测值的算术平均值。
z
=
E
y
{
y
}
(
3
)
z = E_y\{y\} (3)
z=Ey{y}(3)
L
1
l
o
s
s
L_1 loss
L1loss是偏差绝对值的和,另一个方面来说在观测值的中值处有其最优值。
偏差最小化估计量的一般类别被称为M-估计量。从统计学的观点来看,通过将损失函数解释为负对数似然,使用这些常见损失函数的汇总估计可以被视为ML估计。
训练神经网络回归器是点估计过程的推广。对于一组输入目标对
(
x
i
,
y
i
)
(x_i,y_i)
(xi,yi)观察经典的训练任务的方法,其中
f
θ
(
x
)
f_\theta(x)
fθ(x)
是
θ
是\theta
是θ参数化。
arg min
θ
E
(
x
,
y
)
{
L
(
f
θ
(
x
)
,
y
)
}
(
4
)
\argmin \limits_{\theta} E_{(x,y)}\{L(f_\theta(x),y)\} (4)
θargminE(x,y){L(fθ(x),y)}(4)
事实上,如果我们去掉对输入数据的依赖,使用一个仅仅输出学习到的标量的平凡的
f
θ
f_θ
fθ,任务就减少到(2)。相反,在每个训练样本上,完整的训练任务分解为相同的最小化问题;简单的操作表明(4)等价于
arg min
θ
E
x
{
E
y
∣
x
{
L
(
f
θ
(
x
)
,
y
)
}
}
(
5
)
\argmin \limits_{\theta} E_x\{E_{y|x}\{L(f_\theta(x),y)\}\} (5)
θargminEx{Ey∣x{L(fθ(x),y)}}(5)
网络在理论上可以通过分别解决点估计问题来最小化这个损失。因此,潜在的损失属性通过神经网络训练来继承。
在有限的输入目标数据对上通过公式(1)训练回归器的过程隐藏了一个点:与输入和目标之间的1:1映射不同,实际上这个映射是多值的。 例如,在所有自然图像的超分辨率任务(Ledig等人,2017年)中,低分辨率图像x可以用许多不同的高分辨率图像y来解释,因为关于边缘和纹理的确切位置和方向的知识在抽取中丢失了。
换句话来说
p
(
y
∣
x
)
p(y|x)
p(y∣x)是与低分辨率图像一致的高度复杂的分布训练一个神经网络回归器使用低和高分辨率的图像对使用
L
2
l
o
s
s
L_2 loss
L2loss,网络学习输出所有貌似合理的解释的平均值,导致网络预测结果模糊。有大量的工作反对这个趋势,例如使用学习的鉴别器方程作为损失这篇论文。
我们的观测结果是对于某个问题这个趋势有一种意想不到的好处。L2最小化的一个不重要且乍一看毫无用处的性质是,在期望值上,如果我们用期望值与目标匹配的随机数替换目标,估计值保持不变。
这很容易看出来,公式2,无论
y
s
ys
ys来自什么特点的分布,公式3都成立。如果用具有相同的条件期望值的任意分布去替换输出条件目标分布
p
(
y
∣
x
)
p(y|x)
p(y∣x),则等式5的最优网络参数
θ
\theta
θ也不变。这意味着我们可以用零均值的噪声去破坏神经网络的训练目标不会改变网络学习的内容。将这个与公式1中损坏的输入结合起来我们就剩下经验风险最小化的任务了。
arg min
θ
∑
i
L
(
f
θ
(
x
^
i
)
,
y
^
i
)
\argmin \limits_{\theta} \sum \limits_{i} L(f_\theta(\hat{x}_i),\hat{y}_i)
θargmini∑L(fθ(x^i),y^i) (6)
其中输入和目标都是从损坏的分布中(不需要是相同的)提取的,以基础的、未观察到的干就目标
y
i
y_i
yi为条件,所以就是
E
{
y
^
i
∣
x
^
i
}
=
y
i
E\{\hat{y}_i|\hat{x}_i\}=y_i
E{y^i∣x^i}=yi。给定无限的数据,方差是目标中损坏的平均方差,除以训练的样本数。有趣的时,以上都不依赖于损坏的似然模型,也不依赖于基本的干净图像簇的密集模型。我们不需要明确的p(noise|clean)或者p(clean),我们只要有基于他们分布的数据。
在很多图像修复任务中,损坏的输入数据的期望是我们寻求去恢复的干净目标。弱光摄影就是一个例子:长时间无噪声曝光是短时间、独立、有噪声曝光的平均值。考虑到这一点,以上建议了仅给出成对噪声图像的学习去除光子噪声的能力,而不需要潜在的昂贵或困难的长时间曝光。
同时可以从其他的损失函数中得到相同的观测结果。例如
L
1
L_1
L1损失恢复了目标的中值,意味着神经网络可以被训练来恢复有显著的(高达50%)异常内容的图像,同样只需要访问这些损坏的图像对。
Discussion
我们展示了使用深度神经网络的简单的统计论证在信号恢复中展现出的新的能力,他可能不需要观察干净的信号就可以在复杂的损坏情况下恢复信号,不需要对噪声或者其他损坏清楚的统计学描述,在性能层面,等于或者接近是用干净的目标数据。干净的数据对于去噪来说是不需要这个结论不是新的。事实上,例如,经典的BM3D算法,该算法利用单独的噪声图片中的自相似块。
我们表明了,之前证明的深度神经网络的高恢复性能同样可以在没有干净数据的情况下实现,所有这些都基于相同的通用的深度卷积模型。这也为很多应用提供了很大的好处,因为它消除了可能费力搜集干净数据的需求。
AmbientGAN(Ashish Bora,2018年)使用损坏的观察结果训练生成对抗网络(Goodfellow等人,2014年)。与我们的方法相反,AmbientGAN需要一个明确的损坏前向模型。我们发现将两条道路上的想法结合起来很有趣。