作者单位:苏黎联邦理工、鲁汶大学
论文链接:https://arxiv.org/pdf/2108.05302.pdf
代码链接:https://github.com/JingyunLiang/MANet
编者言: 作者从模糊核的空间可变性的角度出发,提出了每帧多核的核估计方案MANet,通过限制感受野并使用增强了表达能力的MAConv来完成盲超分。
看点
现有的盲图超分算法假设模糊核在整幅图像上具有空间不变性。然而,由于物体运动和失焦等因素,模糊核通常具有空间变异。为了解决这一问题,本文提出了一种用于空间变异核估计的互仿射网络MANet。首先,它有一个适度的感受野以保持退化的局部性。其次,它使用互仿射卷积层,在不增加感受野、模型大小和计算负担的情况下增强特征的表达能力。MANet在合成图像和真实图像上的空间变异和不变核估计方面表现良好,并且在与非盲SR方法相结合时,也能获得最先进的盲SR性能。
方法
Overview
神经网络经常堆叠多层来建立具有大感受野的深层模型。然而,空间变异核估计任务需要保持退化的局部性。为此,本文提出了一个具有适度感受野的互仿射网络MANet,如下图所示:
MANet包含两个模块:特征提取和核重建模块。受U-Net启发,特征提取模块由卷积层、残差块、下采样器和上采样器组成。LR图像首先输入3×3卷积层提取图像特征,然后经过3个残差块。每个残差块包括两个互仿射卷积层,之间用ReLU激活用于学习非线性。在中间残差块前后,分别使用卷积和转置卷积(步长均为2)对特征进行下采样和上采样。此外,特征提取模块中有两个跳跃连接以利用不同层次的特征,提高表示能力。核重建模块在通道维度使用3x3卷积和softmax去为LR的每个像素预测核。然后使用最近邻插值得到HR的预测核。这样设计的MANet既确保了核估计不会受到距离11像素以上的其他图像块的干扰又有足够的能力预测核。
互仿射卷积
一般来说,小的感受野意味着浅层网络,它从不同的图像块中学习核的表示能力较弱。一个可能的解决方案是增加通道数量。但是它带来了参数的二次增长和计算量的增加。为此,本文提出一种互仿射卷积层MAConv来解决这个问题,如下图所示:
首先将输入特征
x
x
x沿通道维度分为S个
x
i
x_i
xi,
x
i
x_i
xi的互补特征为
x
‾
i
\overline x_i
xi,均输入到仿射变换模块中,仿射变换模块有一个全连接网络
F
\mathcal F
F从
x
‾
i
\overline x_i
xi学习变换参数
β
i
\beta_i
βi和
γ
i
\gamma_i
γi。然后用
β
i
\beta_i
βi和
γ
i
\gamma_i
γi对
x
i
x_i
xi进行缩放和移位。整个过程被描述为:
β
i
,
γ
i
=
split
(
F
(
x
‾
i
)
)
y
i
=
β
i
⊙
x
i
+
γ
i
\begin{aligned} \boldsymbol{\beta}_{i}, \boldsymbol{\gamma}_{i} &=\operatorname{split}\left(\mathcal{F}\left(\overline{\boldsymbol{x}}_{i}\right)\right) \\ \boldsymbol{y}_{i} &=\boldsymbol{\beta}_{i} \odot \boldsymbol{x}_{i}+\boldsymbol{\gamma}_{i} \end{aligned}
βi,γiyi=split(F(xi))=βi⊙xi+γi其中,
⊙
\odot
⊙为哈达玛积。变换后特征经过一个3x3卷积输出特征
z
i
∈
R
C
o
u
t
S
×
H
f
×
W
f
\boldsymbol{z}_{i} \in \mathcal{R}^{\frac{C_{o u t}}{S} \times H_{f} \times W_{f}}
zi∈RSCout×Hf×Wf,将S个
z
i
z_i
zi沿通道维度concat得到MAConv的输出
z
z
z。MAConv通过互仿射变换利用不同通道之间的相互依赖性,而不是像卷积那样将所有输入输出通道完全连接起来。这样的设计可以提高特征表示能力并大大降低模型大小和计算复杂度。
实验
实施细节
本文所生成的核大小为21x21。训练时,核宽度 σ 1 , σ 2 ∼ U ( 0.175 s , 2.5 s ) \sigma_{1}, \sigma_{2} \sim \mathcal{U}(0.175 s, 2.5 s) σ1,σ2∼U(0.175s,2.5s),旋转角度 θ ∼ U ( 0 , π ) \theta \sim \mathcal{U}(0, \pi) θ∼U(0,π),利用随机核对图像进行模糊处理。值得指出的是,即使对空间不变的模糊图像进行训练,该网络也能学会处理空间变异核。通道分割数S默认为2。用MAE损失来约束核。
消融实验
MAConv与卷积的感受野相同。卷积、分组卷积和MAConv的比较如下图,Channel为三个残差块的通道数:
将残差块中的MAConv层数从2增加到4,以探讨其对核估计的影响。因此,MANet的感受野从22x22增加到38x38。如图4(a)和4(b)所示,当MAConv层数为4时,不能准确的估计核。当模型的感受野较大时,其结果可能会受到其他图像块的影响。图4(a)和图4©显示了核损失和LR损失的对比。在使用LR损失时,MANet不能区分不同的图像块,总是预测一个固定的核,这个核可以是所有可能核的平均值。
量化评估
在训练过程中加入高斯和JPEG压缩噪声以测试在更复杂情况下的核估计性能。尽管与无噪声情况相比性能有所下降,但LR图像的PSNR在40.59 - 45.45dB之间表明了在严重噪声腐蚀下估计核的能力。
在空间变异的SR上的定量评估:
在空间不变的SR上的定量评估: