摘要: 本文考虑了吸收效应对于图像反射失真去除的影响,展示了吸收效应可以被折射振幅系数矩阵均值量化的估计。然后重建了图像模型,提出了两步方案。首先估计包含反射失真图像的吸收效应,然后将其作为输入复原图像。实验展示了本文不仅移除了反射失真,且复原了由于吸收效应产生的亮度失真。本文的剪切学习更加展示了方法的优秀表现以及良好的泛化能力。代码开源于https://github.com/q-zh/absorption。
一、简介
当光照射光滑玻璃表面,就会发生部分的吸收、反射与传播。对于含反射噪声的图像
I
\bm I
I,一个广泛使用的模型为
I
=
Ω
T
+
Φ
R
(1)
\bm I = \bm{\Omega T} + \bm{\Phi R} \tag 1
I=ΩT+ΦR(1)其中,
Ω
\bm\Omega
Ω与
Φ
\bm\Phi
Φ分别代表折射与反射振幅系数矩阵,而
T
\bm T
T与
R
\bm R
R代表传播与反射图像。从
I
\bm I
I中恢复
T
\bm T
T是一个病态问题,由于
T
\bm T
T与
R
\bm R
R的内容不可知性,以及
Ω
\bm\Omega
Ω与
Φ
\bm\Phi
Φ的内容无关变量。大多数方法依赖图像内容,如从图像梯度、字典或训练图像得到精准的先验。内容无关变量的性质也被广泛研究并用于多图像反射去除。此外,大多数方案基于理想图像模型,并没有考虑到吸收效应(于第三部分定义),例如玻璃充分薄。最近的工作解决了使用
Φ
T
\bm{\Phi T}
ΦT代替
T
\bm T
T,因为吸收效应显著的降低了传播。因为吸收效应独立于图像内容并随玻璃的颜色、厚度、方位,其有助于缓和图像反射去除的病态性。
本文通过考虑吸收效应,回顾含反射噪声的图像模型。根据仿真结果,可以注意到吸收效应可以通过折射振幅系数矩阵的均值量化的代表,记为
a
v
g
(
Ω
)
avg(\bm\Omega)
avg(Ω)(见5.1节)。作为内容无关变量,
a
v
g
(
Ω
)
avg(\bm\Omega)
avg(Ω)在仿真时具有波动,可以认为准确的估计
a
v
g
(
Ω
)
avg(\bm\Omega)
avg(Ω)有益于解决图像反射去除问题。本文分两步解决问题:首先估计
a
v
g
(
Ω
)
avg(\bm\Omega)
avg(Ω),然后通过两个神经网络复原传播图像
T
\bm T
T。使用二支训练策略,将
I
\bm I
I与
T
\bm T
T作为输入以得到
a
v
g
(
Ω
)
avg(\bm\Omega)
avg(Ω)。核心思想在于通过使用神经网络层传播内容无关变量
a
v
g
(
Ω
)
avg(\bm\Omega)
avg(Ω)以减少传播图像与反射图像内容的影响。在第二步中,使用利普希茨【Lipschitz】条件约束,以增加对不同的
a
v
g
(
Ω
)
avg(\bm\Omega)
avg(Ω)值的泛化能力。该方法在公共数据集取得了显著的成效。本文工作总结如下:
-本文首次提出了吸收效应,用于图像反射去除。此外,吸收效应可以通过反射振幅系数矩阵的均值量化的估计;
-本文提出两步解决方案:二支训练策略与利普希茨约束条件,用于通过考虑吸收效应解决图像反射去除问题。此外还分析了该方法有益于估计吸收效应并复原传播图像的原因。
-通过实验展示本文的方法不仅去除反射影响,并借助吸收效应复原亮度失真。本文的方法达到了极好的表现,并拥有较强的模型泛化能力。
二、相关工作
三、吸收效应
当考虑吸收效应时,双表面光滑玻璃的折射与反射振幅系数矩阵可以描述为
Ω
=
(
1
−
P
)
2
(
1
−
A
)
(
1
−
P
2
)
(
1
−
A
)
2
Φ
=
P
+
P
(
1
−
P
)
2
(
1
−
A
)
2
1
−
P
2
(
1
−
A
)
2
(2)
\begin{aligned} \bm\Omega &= \frac{(1-\bm P)^2(1 - \bm A)}{(1 - \bm P^2)(1-\bm A)^2} \\ \bm\Phi &= \bm P + \frac{\bm P(1 - \bm P)^2(1 - \bm A)^2}{1 - \bm P^2(1 - \bm A)^2} \tag 2\end{aligned}
ΩΦ=(1−P2)(1−A)2(1−P)2(1−A)=P+1−P2(1−A)2P(1−P)2(1−A)2(2)其中,
A
\bm A
A定义为吸收效应用于描述当光经过玻璃传播时光的衰减。
P
\bm P
P是空气到玻璃表面的反射率。
A
\bm A
A与
P
\bm P
P可以通过朗伯比尔【Lambert-Beer】定律与菲涅尔【Fresnel】公式分别表示为
A
=
1
−
e
x
p
(
−
k
L
c
o
s
Θ
t
)
P
=
1
2
(
(
c
o
s
Θ
−
K
c
o
s
Θ
t
c
o
s
Θ
+
K
c
o
s
Θ
t
)
2
+
(
c
o
s
Θ
t
−
K
c
o
s
Θ
c
o
s
Θ
t
+
K
c
o
s
Θ
)
2
)
(3)
\begin{aligned} \bm A & = 1 - exp(\frac{-kL}{cos \bm\Theta_t}) \\ \bm P &= \frac{1}{2}((\frac{cos \bm\Theta - \mathcal Kcos\bm\Theta_t}{cos \bm\Theta + \mathcal Kcos\bm\Theta_t})^2 + (\frac{cos \bm\Theta_t - \mathcal Kcos\bm\Theta}{cos \bm\Theta_t + \mathcal Kcos\bm\Theta})^2) \end{aligned} \tag 3
AP=1−exp(cosΘt−kL)=21((cosΘ+KcosΘtcosΘ−KcosΘt)2+(cosΘt+KcosΘcosΘt−KcosΘ)2)(3)其中,
k
k
k是衰减系数,其代表了玻璃的颜色;
L
L
L是光穿过玻璃经过的距离,其取决于玻璃的厚度;
K
\mathcal K
K是折射率;
Θ
\bm\Theta
Θ是对于玻璃的入射角;
Θ
t
\bm\Theta_t
Θt根据斯奈尔【Snell】定律,其值为
a
r
c
s
i
n
(
s
i
n
Θ
/
K
)
arcsin(sin\bm\Theta/\mathcal K)
arcsin(sinΘ/K)。对于常见的玻璃,
k
k
k通常取值在
4
m
−
1
4 m^{-1}
4m−1到
32
m
−
1
32 m^{-1}
32m−1之间且
K
=
1.474
\mathcal K = 1.474
K=1.474。根据第二部分的介绍,一般的图像建模取
A
=
0
\bm A = 0
A=0且
Ω
+
Φ
=
1
\bm\Omega + \bm\Phi = 1
Ω+Φ=1,其忽略了吸收效应。对于图像反射去除问题,不依赖于
Ω
\bm\Omega
Ω与
Φ
\bm\Phi
Φ的假设会使结果变差,尤其是
T
\bm T
T的整体亮度估计的准确度。相反的,本文考虑一般的图像模型中,
A
≠
0
\bm A \ne 0
A=0。
从
A
\bm A
A中直接解出
I
\bm I
I是一个非平凡任务,因为
A
\bm A
A的矩阵形式以及
A
\bm A
A与
I
\bm I
I在真实世界的关系。本文假设反射占据整个光滑玻璃,其均匀,各向同性且充满相机的整个视野。基于这种假设,考虑一个标量
e
e
e,其是
Ω
\Omega
Ω的均值,用于在5.1节量化的估计吸收效应。其中,
Ω
\bm\Omega
Ω可以近似的被分解为
e
e
e与矩阵
O
\bm O
O的积,有
Ω
=
e
O
(4)
\bm\Omega = e\bm O \tag 4
Ω=eO(4)其中,
O
\bm O
O的所有元素趋近于一。
四、提议方法
根据第三部分的分析,可以将式(1)的图像建模描述为
I
=
e
O
T
+
Φ
R
(5)
\bm I = e\bm{OT} + \bm{\Phi R} \tag 5
I=eOT+ΦR(5)作为在现实世界波动的内容无关变量
e
e
e(如图3.f所示),本文认为精确的估计
e
e
e有助于解决图像反射去除问题,并提出两步解决方案:
g
:
I
→
e
,
h
1
:
(
I
,
e
)
→
O
T
,
h
2
:
O
T
→
T
(6)
\begin{aligned} & g:\bm I \rightarrow e, \\ & h_1: (\bm I, e) \rightarrow \bm{OT}, h_2:\bm{OT} \rightarrow \bm T \end{aligned} \tag 6
g:I→e,h1:(I,e)→OT,h2:OT→T(6)其中,第一步通过网络
g
g
g从
I
\bm I
I中估计
e
e
e,而第二步通过网络
h
1
h_1
h1在
e
e
e的辅助下从
I
\bm I
I中复原
O
T
\bm{OT}
OT,通过网络
h
2
h_2
h2从
O
T
\bm{OT}
OT中复原
T
\bm T
T。
4.1 估计吸收效应
因为CNN通常用于基于图像内容提取特征,使用网络
g
g
g从
I
\bm I
I估计内容无关变量
e
e
e并不是一个平凡问题。为此,网络
g
g
g使用成对的
O
T
\bm {OT}
OT进行训练,以聚焦于内容无关特征(如图1虚线框部分所示)。其思想是尽管
O
T
\bm{OT}
OT与
I
\bm I
I拥有相似的传播图像内容,但具有不同的
e
e
e,例如
g
(
I
)
g(\bm I)
g(I)应该为
e
e
e然而
g
(
O
T
)
g(\bm {OT})
g(OT)应该为
1
1
1。因此,内容无关变量
e
e
e的特征期望通过有监督方法被学习。尽管该方案有利于隔离传输图像的内容特征,但是其可能使网络
g
g
g聚焦于反射图像的内容(如
Φ
R
\bm{\Phi R}
ΦR)。因为
I
\bm I
I与
O
T
\bm{OT}
OT的差异包括
e
e
e与
Φ
R
\bm{\Phi R}
ΦR。接下来展示缓和反射图像内容的影响并通过设计网络
g
g
g与损失函数
L
Ψ
L_{\Psi}
LΨ聚焦于
e
e
e。
图1,两步解决方案总览。在第一步,网络
g
g
g将
I
\bm I
I与
O
T
\bm{OT}
OT作为输入,并分别输出
e
p
r
e
e_{pre}
epre与
e
p
r
e
′
e_{pre}'
epre′。第二步,网络
h
h
h连接
I
\bm I
I与空域重复的
e
p
r
e
e_{pre}
epre,并输出
T
p
r
e
\bm T_{pre}
Tpre。
Ψ
i
\bm\Psi_i
Ψi与
Ψ
i
′
\bm\Psi_i'
Ψi′是网络
g
g
g不同隐藏层的输出。注意到网络
g
g
g的两支在训练时共享权重,虚线框部分在推测时不活动。ZC与BN模块分别执行零均值与批归一化。
图2展示了真实数据的两组
(
I
,
R
,
Φ
R
)
(\bm I, \bm R, \bm{\Phi R})
(I,R,ΦR),可以观察到:强反射占据了稀疏空余的主导地位,这些区域中的
I
\bm I
I的亮度远高于
T
\bm T
T(红色区域);剩余的弱反射连续的分布,在
I
\bm I
I与
T
\bm T
T的亮度具有接近且较小的值(蓝色区域)。基于这种观察,网络
g
g
g被设计为:使用ReLU6用于去除强反射产生的较大的值;ZC【Zreo-center】操作用于减少弱反射的影响。网络
g
g
g使用自由偏置的卷积神经网络更好的将
e
e
e从
I
\bm I
I中传播。
图2,SIR数据的图示,从左至右:
I
\bm I
I,
T
\bm T
T,
Φ
R
\bm{\Phi R}
ΦR。强或弱反射被红或蓝框标记。
近似的,有
R
e
L
U
6
(
a
x
+
y
)
=
a
R
e
L
U
6
(
x
)
+
R
e
L
U
6
(
y
)
ReLU6(a\bm x+ \bm y) = aReLU6(\bm x) + ReLU6(\bm y)
ReLU6(ax+y)=aReLU6(x)+ReLU6(y),其中标量
a
a
a位于
[
0.7
,
1
]
[0.7, 1]
[0.7,1]的范围,而
x
\bm x
x与
y
\bm y
y是两个张量。本文的网络设计带来了如下近似:
Ψ
i
≈
e
Ψ
i
′
+
Δ
i
,
∀
i
=
1
,
2
,
3
,
4
,
5
(7)
\bm\Psi_i \approx e\bm\Psi_i' + \bm\Delta_i, \forall i = 1, 2, 3, 4, 5 \tag 7
Ψi≈eΨi′+Δi,∀i=1,2,3,4,5(7)其中,
Ψ
\bm\Psi
Ψ是如图1所示的隐藏层的输出,
Δ
i
\bm\Delta_i
Δi定义为
Δ
i
=
{
Φ
R
,
i
=
0
Z
C
(
R
e
L
U
6
(
w
∗
Δ
i
−
1
)
)
,
i
=
1
,
2
,
3
,
4
,
5
(8)
\bm\Delta_i = \left\{\begin{aligned}&\bm{\Phi R}, && i = 0 \\&ZC(ReLU6(\bm w*\bm\Delta_{i-1})), && i = 1, 2, 3, 4, 5 \\\end{aligned}\right.\tag 8
Δi={ΦR,ZC(ReLU6(w∗Δi−1)),i=0i=1,2,3,4,5(8)其中,
w
\bm w
w是学习到的卷积核。ReLU6消除了大的值,ZC减去了平均值,因此
Δ
i
\bm\Delta_i
Δi随着
i
i
i的增加趋近于零。随着
Δ
i
\bm\Delta_i
Δi从
Φ
R
\bm{\Phi R}
ΦR得到信息,反射图像的内容随着
Δ
i
\bm\Delta_i
Δi趋近于零而减少。式(7)表明
e
e
e可以在深层中顺利的传播。
为了在训练中令
Δ
i
\bm\Delta_i
Δi逼近于零,通过损失函数
L
Ψ
i
L_{\Psi}^i
LΨi限制
Ψ
\bm\Psi
Ψ,形如
L
Ψ
=
∑
i
=
1
5
λ
i
L
Ψ
i
=
∑
i
=
1
5
λ
i
∣
∣
B
C
E
(
Ψ
i
/
Ψ
i
′
,
e
g
t
)
∣
∣
(9)
L_{\Psi} = \sum_{i=1}^5 \lambda_iL_{\Psi}^i = \sum_{i=1}^5 \lambda_i||BCE(\bm\Psi_i / \bm\Psi_i', e_{gt})||\tag 9
LΨ=i=1∑5λiLΨi=i=1∑5λi∣∣BCE(Ψi/Ψi′,egt)∣∣(9)其中,
/
/
/为元素级除法,
B
C
E
BCE
BCE代表二值交叉熵损失函数,应用于矩阵
Ψ
i
/
Ψ
i
′
\bm\Psi_i / \bm\Psi_i'
Ψi/Ψi′与标量
e
g
t
e_{gt}
egt,且
λ
i
\lambda_i
λi为权重,值为
{
0.2
,
0.8
,
2
,
3
,
4
}
\{0.2, 0.8, 2, 3, 4\}
{0.2,0.8,2,3,4}。
总而言之,二支训练策略准确的剥离了传播图像的内容特征。网络
g
g
g与损失函数
L
ψ
L_{\psi}
Lψ消除了反射图像的内容影响。这些设计辅助
e
e
e通过神经网络
g
g
g传播,得到了准确的估计。
4.2 传播图像复原
网络
h
1
h_1
h1优化使得
h
1
(
I
,
e
)
=
O
T
h_1(\bm I, e) = \bm{OT}
h1(I,e)=OT成立。变量
e
e
e连续分布于整个空间,因此约束
∀
e
∈
E
,
h
1
(
I
,
e
)
=
O
T
s
.
t
.
I
=
f
I
(
e
)
=
e
O
T
+
Φ
R
(10)
\begin{aligned} &\forall e \in \mathbb E, h_1(\bm I, e) = \bm{OT} \\ &s.t.\ \bm I = f_{\bm I}(e) = e\bm{OT} + \bm{\Phi R}\end{aligned} \tag{10}
∀e∈E,h1(I,e)=OTs.t. I=fI(e)=eOT+ΦR(10)该约束确保了空间
E
\mathbb E
E的所有
e
e
e都满足
h
1
(
I
,
e
)
=
O
T
h_1(\bm I, e) = \bm{OT}
h1(I,e)=OT而非某个单一值
e
0
e_0
e0,这用于泛化的先验学习不同的吸收效应。接下来说明式(10)的约束可以通过保证函数
s
(
e
)
=
f
I
(
e
)
,
e
∈
E
s(e) = f_{\bm I}(e), e \in \mathbb E
s(e)=fI(e),e∈E是一个初始值问题
{
h
1
(
s
(
e
)
,
e
)
=
d
s
/
d
e
I
0
=
s
(
e
0
)
(11)
\left\{\begin{aligned}&h_1(s(e), e) = ds/de \\&\bm I_0 = s(e_0) \\\end{aligned}\right. \tag{11}
{h1(s(e),e)=ds/deI0=s(e0)(11)的唯一解达成,其中
(
I
0
,
e
0
)
(\bm I_0, e_0)
(I0,e0)来源于训练数据。
如果训练网络
h
1
h_1
h1使得
f
I
(
e
)
f_{\bm I}(e)
fI(e)是式(11)中初始值问题的唯一解,那么有
h
1
(
f
I
(
e
)
,
e
)
=
d
s
/
d
e
=
O
T
h_1(f_{\bm I}(e), e)=ds/de = \bm{OT}
h1(fI(e),e)=ds/de=OT,而式(10)的约束也被保证。反之,
s
(
e
)
s(e)
s(e)的导数不能保证唯一,并且
h
1
(
s
(
e
)
,
e
)
h_1(s(e), e)
h1(s(e),e)或
h
1
(
I
,
e
)
h_1(\bm I, e)
h1(I,e)不能必然等于
O
T
\bm{OT}
OT。因此,式(10)的约束不能确保满足。显然的,由于使用数据训练
h
1
h_1
h1用于满足
f
I
(
e
)
f_{\bm I}(e)
fI(e),
f
I
(
e
)
f_{\bm I}(e)
fI(e)是式(11)中初始值问题的一个解。因此,确保式(10)约束的关键在于解
f
I
(
e
)
f_{\bm I}(e)
fI(e)的单值性。
根据柯西-利普希茨【Cauchy-Lipschitz】理论,只有
h
1
h_1
h1满足利普希茨条件的约束,才可以得到唯一解。给定
I
∈
U
\bm I \in \mathbb U
I∈U,利普希茨条件表示为
∣
h
1
(
I
1
,
e
)
−
h
1
(
I
2
,
e
)
∣
≤
M
∣
I
1
−
I
2
∣
,
∀
(
I
1
,
e
)
,
(
I
2
,
e
)
∈
U
×
E
(12)
|h_1(\bm I_1, e) - h_1(\bm I_2, e)| \le M|\bm I_1 - \bm I_2|, \forall (\bm I_1, e), (\bm I_2, e) \in \mathbb U \times \mathbb E \tag{12}
∣h1(I1,e)−h1(I2,e)∣≤M∣I1−I2∣,∀(I1,e),(I2,e)∈U×E(12)其中
M
M
M是利普希茨常数。如果函数
h
1
h_1
h1满足式(12),称之为M-利普希茨函数,本文设置
M
M
M为1。深度神经网络可以使用梯度惩罚实现利普希茨条件约束,可微函数是一个1-利普希茨函数当且仅当其梯度的范数至多为1。
相似的,限制
h
2
h_2
h2为1-利普希茨可微函数,例如使用梯度惩罚函数,惩罚反射失真图像
I
^
\hat\bm I
I^的梯度
L
C
o
n
=
(
∣
∣
∇
I
^
h
1
(
I
^
,
e
^
)
∣
∣
−
1
)
2
,
∀
I
^
∈
U
,
∀
e
^
∈
E
(13)
L_{Con} = (||\nabla_{\hat\bm I} h_1(\hat\bm I, \hat e)|| - 1)^2, \forall \hat\bm I \in \mathbb U, \forall \hat e \in \mathbb E \tag{13}
LCon=(∣∣∇I^h1(I^,e^)∣∣−1)2,∀I^∈U,∀e^∈E(13)其中
U
\mathbb U
U代表反射失真图像的子空间。构建
I
^
=
I
+
ϵ
1
O
T
\hat\bm I = \bm I + \epsilon_1\bm{OT}
I^=I+ϵ1OT,其中
ϵ
1
∼
U
[
−
0.1
,
0.1
]
\epsilon_1 \sim U[-0.1, 0.1]
ϵ1∼U[−0.1,0.1],其中
U
U
U代表均匀分布。这使得
I
^
=
(
ϵ
1
+
e
)
O
T
+
Φ
R
\hat\bm I = (\epsilon_1 + e)\bm{OT} + \bm{\Phi R}
I^=(ϵ1+e)OT+ΦR是带有吸收效应
ϵ
1
+
e
\epsilon_1 + e
ϵ1+e的反射失真图像。因此,有
I
^
∈
U
\hat\bm I \in \mathbb U
I^∈U。构建
E
=
{
e
^
∣
e
^
=
ϵ
2
e
g
t
+
(
1
−
ϵ
2
)
e
p
r
e
}
\mathbb E = \{\hat e|\hat e = \epsilon_2e_{gt} + (1 - \epsilon_2)e_{pre}\}
E={e^∣e^=ϵ2egt+(1−ϵ2)epre},其中
ϵ
2
∼
U
[
0
,
1
]
\epsilon_2 \sim U[0, 1]
ϵ2∼U[0,1]。这种构造线性的采样真实和估计分布。
将
h
1
h_1
h1与
h
2
h_2
h2网络连接为
h
h
h,并将梯度惩罚损失函数应用到
h
h
h以近似的应用到
h
1
h_1
h1。这样的近似是有理由的,因为
h
h
h的梯度被惩罚代表
h
1
h_1
h1的梯度也期望被惩罚。
梯度惩罚损失函数保证了式(11)初始值问题的唯一解,从而确保了式(10)的约束,有助于泛化学习具有不同吸收效应与场景的有限的训练数据与真实数据。
4.3 损失函数
本文使用交替优化的策略迭代的训练
g
g
g与
h
h
h。为了更好的考虑吸收效应估计,更新
g
g
g一次之后更新
h
h
h五次。
g
g
g与
h
h
h的损失函数分别为
L
g
=
L
T
+
λ
e
(
L
e
+
L
e
′
)
+
∑
i
=
1
5
λ
i
L
Ψ
i
L
h
=
L
T
+
λ
g
p
L
C
o
n
(14)
\begin{aligned}& L_g = L_T + \lambda_e(L_e + L_e') + \sum_{i=1}^5\lambda_iL_{\Psi}^i \\ & L_h = L_T + \lambda_{gp}L_{Con}\end{aligned} \tag{14}
Lg=LT+λe(Le+Le′)+i=1∑5λiLΨiLh=LT+λgpLCon(14)其中
L
T
L_T
LT是复原损失函数,
L
e
L_e
Le是二值交叉熵损失函数
L
T
=
D
(
T
p
r
e
,
T
g
t
)
,
L
e
=
B
C
E
(
e
p
r
e
,
e
g
t
)
,
L
e
′
=
B
C
E
(
e
p
r
e
′
,
1
)
(15)
L_T = D(\bm T_{pre}, \bm T_{gt}), L_e = BCE(e_{pre}, e_{gt}), L_e' = BCE(e_{pre}', 1) \tag{15}
LT=D(Tpre,Tgt),Le=BCE(epre,egt),Le′=BCE(epre′,1)(15)其中,
T
p
r
e
=
h
(
I
,
e
p
r
e
)
\bm T_{pre} = h(\bm I, e_{pre})
Tpre=h(I,epre),
e
p
r
e
=
g
(
I
)
e_{pre} = g(\bm I)
epre=g(I)。
D
D
D是一个预定义的度量,用于衡量
T
p
r
e
\bm T_{pre}
Tpre与
T
g
t
\bm T_{gt}
Tgt的相似度
D
(
T
p
r
e
,
T
g
t
)
=
l
p
e
r
−
λ
p
s
n
r
l
L
S
N
R
−
l
S
S
I
M
−
l
S
I
(16)
D(\bm T_{pre}, \bm T_{gt}) = l_{per} - \lambda_{psnr}l_{LSNR} - l_{SSIM} - l_{SI} \tag{16}
D(Tpre,Tgt)=lper−λpsnrlLSNR−lSSIM−lSI(16)其中,
λ
p
s
n
r
\lambda_{psnr}
λpsnr设置为
1
/
40
1/40
1/40用于平衡
l
S
S
I
M
l_{SSIM}
lSSIM与
l
S
I
l_{SI}
lSI的值。预定义的度量
D
D
D综合考虑常见的适合的度量,如VGG-16模型中的感知损失
l
p
e
r
l_{per}
lper;峰值信噪比【Peak Signal-to-Noise Ratio,PSNR】与结构相似性【Structural SIMilarity,SSIM】也广泛用于衡量图像的差异。
图1展示了
g
g
g与
h
h
h的网络架构,批尺寸为16,
λ
e
=
0.5
\lambda_e = 0.5
λe=0.5,
λ
g
p
=
10
\lambda_{gp} = 10
λgp=10,使用Adam优化器,参数为
β
1
=
0.5
,
β
2
=
0.999
\beta_1 = 0.5, \beta_2 = 0.999
β1=0.5,β2=0.999。起始100轮次的学习率为0.0001,并在接下来的100轮次中衰减到0.00005。
五、实验
使用四个真实的数据集进行评估,其具有不同的吸收效应(已于第三章介绍)。SIR数据集包含454个测试样本且其中的120个通过三种不同厚度的玻璃获取,本文使用SIR的子集:厚SIR;ZC20数据集包含160个具有使用五种不同方位的玻璃获取的样本;LY20数据集包含220个样本,部分由两种不同厚度与不同方位的玻璃获取;ZN18数据集包含109个测试样本,部分由两种不同方位的玻璃获取。
本文比较的方案包含七种SOTA的图像反射去除方案,包括基于优化的YM19,与基于深度学习的ZN18,WS19,WY19,WT19,KH20,LY20。
度量方案使用SSIM与PSNR作为误差度量。此外,引入亮度相似性指数均值【average of Intensity Similarity index,IS】评估精确的全局亮度相似性。本文的关键之处为吸收效应
e
e
e,亮度相似性聚焦于图像
x
\bm x
x与
y
\bm y
y的亮度相似度,其定义为SSIM的一个因子
I
S
(
x
,
y
)
=
2
μ
x
μ
y
+
c
μ
x
2
+
μ
y
2
+
c
(17)
IS(\bm x, \bm y) = \frac{2\mu_x\mu_y + c}{\mu_x^2 + \mu_y^2 + c} \tag{17}
IS(x,y)=μx2+μy2+c2μxμy+c(17)其中
μ
x
\mu_x
μx是
x
\bm x
x的均值,
μ
y
\mu_y
μy同理。
c
c
c是一个默认值的常数。
5.1 合成训练数据
基于式(1),使用Place365的18224个样本作为
T
\bm T
T,来自CRRN的5552个样本作为
R
\bm R
R,通过蒙特卡洛仿真形成的18224组
{
Ω
,
Φ
}
\{\bm\Omega, \bm\Phi\}
{Ω,Φ}生成数据集。相机模型由图3.a展示。有工作表明水平全视野相机
p
f
p_f
pf(设输入尺寸比例2:3)、折射率
K
\mathcal K
K、玻璃的方位(由
p
o
1
p_{o1}
po1与
p
o
2
p_{o2}
po2的三角函数及其运算代表)共同决定了
Ω
\bm\Omega
Ω与
Φ
\bm\Phi
Φ。其他的工作假设
A
=
0
\bm A = 0
A=0但本文将
A
\bm A
A的估计考虑在内,此外本文考虑玻璃的宽度
p
w
p_w
pw、相机与玻璃的距离
p
d
p_d
pd、玻璃的厚度
p
t
p_t
pt以及玻璃的衰减系数
k
k
k。这些输入通过蒙特卡洛仿真基于均匀分布生成。图3.b展示了本文使用的变量范围,其根据日常生活的观察设定。
为了展示吸收效应可以被
Ω
\bm\Omega
Ω的均值量化的估计,本文额外生成了10000组
{
Ω
,
Φ
,
A
}
\{\bm\Omega, \bm\Phi, \bm A\}
{Ω,Φ,A}用于分析。注意到,根据式(3),对于不同的入射角度,
A
\bm A
A的所有元素都趋于一致。其可以表示为
a
=
f
A
(
θ
,
k
,
L
)
a = f_A(\theta, k, L)
a=fA(θ,k,L),如图3.c所示,其中
a
a
a是
A
\bm A
A的元素,
θ
\theta
θ是对应的入射角,
k
k
k与
L
L
L满足所给的
I
\bm I
I(假设光滑玻璃)。定义吸收代数
η
=
a
v
g
(
A
)
\eta = avg(\bm A)
η=avg(A),那么
η
\eta
η可以近似的代表吸收系数
A
\bm A
A。本文研究了
η
\eta
η与
{
Ω
,
Φ
}
\{\bm\Omega, \bm\Phi\}
{Ω,Φ}的关系,图3.d与3.e展示了10000组
{
η
,
a
v
g
(
Ω
)
,
s
t
d
(
Ω
)
,
a
v
g
(
Φ
)
,
s
t
d
(
Ω
)
}
\{\eta, avg(\bm\Omega), std(\bm\Omega), avg(\bm\Phi), std(\bm\Omega)\}
{η,avg(Ω),std(Ω),avg(Φ),std(Ω)}的仿真结果。
η
\eta
η广泛的分布表明了真实世界吸收效应的波动。对应的,
a
v
g
(
Φ
)
avg(\bm\Phi)
avg(Φ)与
s
t
d
(
Φ
)
std(\bm\Phi)
std(Φ)狭窄的分布表明
η
\eta
η与
Φ
\bm\Phi
Φ的较弱的关系。且由于
s
t
d
(
Ω
)
std(\bm\Omega)
std(Ω)的狭窄分布及其较小值,
Ω
\bm\Omega
Ω的元素趋于一致。因此定义
e
=
a
v
g
(
Ω
)
e = avg(\bm\Omega)
e=avg(Ω)并聚焦于
e
e
e与
η
\eta
η的关系。图3.f展示了其关系的分析,基于
e
e
e与
η
\eta
η的双射,使用
e
e
e作为吸收效应的量化估计。
图3,a.蒙特卡洛仿真的相机模型;b.蒙特卡洛仿真输入变量的分布与单位;c.函数
a
=
f
A
(
θ
,
k
,
L
)
a = f_A(\theta, k, L)
a=fA(θ,k,L)曲线,其中
a
a
a是
A
\bm A
A的元素,
θ
\theta
θ是对应的入射角,
L
=
9
m
m
L = 9mm
L=9mm;d与e.10000个随机生成的
η
\eta
η,
Ω
\bm\Omega
Ω与
Φ
\bm\Phi
Φ的均值与方差的分布;f.吸收代数
η
\eta
η与
e
e
e的相关性分析结果。
5.2 图像模型验证
使用本文的数据集重新训练的基于学习的方法,并在测试集上比较预训练的模型。由于本文与相关工作的生成图像模型不同,表现结果只是用于评估图像模型的有效性。表1展示了重训练与预训练模型的平均SSIM。可以观察到,重训练模型的27种情况中,24项相比之下表现更优。
表1,重训练与预训练的平均SSIM差异( × 1 0 − 3 \times 10^{-3} ×10−3),正数表示表现改善。/表示指定方法的模型使用指定数据集训练。
5.3 全局表现
表2展示了每个测试集上预训练与重训练模型中更好的指标。可以观察到,所有的数据集中,本文的方法都达到了最好的表现。图4展示了视觉上的质量比较。可以观察到,YM19产生过于平滑的结果;ZN18图像复原时产生了颜色失真;WS19推测了更暗的结果;WT19、WY19、KH20与LY20没有移除反射失真,并产生了不准确的全局亮度。相比之下,本文不仅移除了反射失真,且复原了由于吸收效应产生的亮度失真。本文的方法基于考虑吸收效应,达到了SOTA的效果。
表2,对于反射失真移除任务,不同数据集上各个模型不同指标的比较。最好与次好的表现分别标记为红色与蓝色。
图4,不同数据集上各个模型的视觉质量比较。颜色框标记了较显著的差异。
5.4 剪切学习
为了验证本文方法各部分的有效性,使用两种方法:单支方法,网络
g
g
g仅将
I
\bm I
I作为输入并在训练中不使用损失函数
L
ψ
L_{\psi}
Lψ;w/o-Con方法,网络
h
h
h不使用式
(
10
)
(10)
(10)的约束条件以及损失函数
L
g
p
L_{gp}
Lgp。
如表2与图4所示,参考IS,两支训练有助于估计更加准确的
e
e
e,使得
T
\bm T
T的全局亮度更加准确的还原。图5左可以更加的显示不同测试集下的IS分布。可以观察到,本文的方法表现优于单支方法与其他SOTA方法。如图5右的视觉质量比较展示了本文方法更加准确的考虑到全局亮度并复原
T
\bm T
T。
图5,左:不同测试集上所有测试样本上各个模型的IS;右:各个模型的预测图像与真实图像的IS图,其对应图像如图4所示。颜色狂标记了较显著的不同。
网络
h
h
h满足利普希茨条件可以满足式(10)的约束从而提高泛化能力。如表2与图4所示,本文的方法较w/o-Con方法稍有更好的结果。为了验证其优势,减少训练样本,这可以突出数据驱动方法泛化能力。分别使用
1
/
10
1/10
1/10与
1
/
20
1/20
1/20的样本,分别称为中型与小型,而原始数据量称为大型。基于
e
e
e的约束,使用IS作为度量。图6展示了不同训练集尺寸的变化。可以观察到,本文的方法较w/o-Con方法的泛化能力更强。
图6,本文方法(红色曲线)与w/o-Con方法(蓝色曲线)在不同数据集上使用不同尺寸数据集(大,中,小型)的IS结果。
六、结论
本文重建了吸收效应的图像模型,并提出两步解决方案用于反射失真去除,达到了SOTA的效果。然而,由于从
I
\bm I
I中估计吸收效应
e
e
e是一个不适定问题,
e
e
e的估计是不准确的。其受到未知图像内容与相机的图像信号处理过程的不确定影响。另一方面,吸收效应的简化使得使用真实数据直接验证模型变得困难。