ICCV2019
论文:https://arxiv.org/pdf/1904.00523.pdf
源码:https://github.com/csjcai/RealSR
1 介绍
近年来,爆炸性的增长通过训练CNN模型以实现SISR,通过设计新的CNN架构和损失函数。
不幸的是,在这样的模拟数据集上训练的SISR模型很难推广到实际应用中,因为真实LR图像中的真实退化要复杂得多。
1.基于不同数据集BD,MD,RealSR训练RCAN模型。
2.提出LP-KPN模型,在新的数据集RealSR上与RCAN模型比较。
本文贡献:
●建立了RealSR数据集,该数据集由具有不同缩放比例的精确对齐的HR和LR图像对组成,为现实世界SISR模型的训练和评估提供了通用基准。
●提出了LP-KPN模型,并验证了其在实际SISR中的效率和有效性。
2 相关工作
SISR数据集:
常见数据集Set5, Set14, BSD300, Urban100 ,Manga109和DIV2K,LR图像通常是通过简单且统一的退化过程合成的,例如双三次降采样或高斯模糊。基于这些数据集训练的模型,真实的LR图像偏离模拟退化时,会产生不好的重建效果。
陈等在一个缩放比例下捕获了100对印刷明信片的图像对,但是在该数据集上训练的模型可能无法很好地推广到现实世界的自然场景。
张等使用多个焦距拍摄了500个场景。 但是,图像对在该数据集中的位置不完全对齐,因此不方便评估该数据集上训练后的模型的性能。
与它们不同的是,在本文的数据集中,我们以多种焦距捕获了来自各种场景的图像,并开发了系统的图像配准算法来精确对齐图像对,从而为现实世界中的单幅图像超分辨率提供了通用且易于使用的基准。
内核预测网络:
考虑到我们RealSR数据集中的退化内核在空间上是变化的,因此我们建议为现实世界SISR训练一个内核预测网络(KPN)。本文是率先训练用于SISR的KPN之一,我们提出LP-KPN以在尺度空间中高效地执行内核预测。
3 真实的SISR数据集
薄透镜成像:
u
,
v
,
f
u,v,f
u,v,f分别表示目标距离,成像距离和焦距。
M
M
M表示缩放因子。
因为
u
>
>
f
u>>f
u>>f,所以成像尺寸
h
2
h_2
h2与
f
f
f线性相关。理论上,通过选择
f
f
f的特定值,可以控制缩放因子,通过增加
f
f
f的值以获得具有更多细节的较大图片。
数据收集:
本文使用了两台全画幅数码单反相机(佳能5D3和尼康D810)捕获图像以进行数据收集,佳能5D3的分辨率为5760×3840,尼康的分辨率为
D810为7360×4912。
对于每个场景,本文使用四种焦距拍摄照片:105mm,50mm,35mm和28mm。 以最大焦距拍摄的图像用于生成真实的HR图像,以其他三个焦距拍摄的图像用于生成LR图像。
为了确保数据集的通用性,我们在室内和室外环境中拍照。 考虑到超分辨率的主要目的是恢复或增强图像细节,因此首选具有丰富纹理的场景。 对于每个场景,我们首先以105mm焦距捕获图像,然后手动减小焦距以拍摄三个缩小的版本。 捕获了234个场景,并且两个摄像机之间没有重叠的场景。本文数据集总共有595个HR和LR图像对。 表1列出了每个摄像机在每个缩放比例下的图像对数。
图像对定位:
本文开发了一种图像配准算法,以逐步对齐此类图像对以构建RealSR数据集,如图:
τ
τ
τ是仿射变换矩阵
C
C
C是裁剪操作,使转换后的
I
L
I_L
IL具有与
I
H
I_H
IH相同的大小
α
α
α和
β
β
β是亮度调节参数
∣
∣
⋅
∣
∣
p
|| ·|| _p
∣∣⋅∣∣p是鲁棒的
L
p
L_p
Lp范数(p≤1),例如L1范数
在一开始,根据等式(3),将
τ
τ
τ初始化为缩放比例转换,缩放比例因子计算为两个焦距之比。
I L ′ I^{'}_L IL′=C( τ τ τ ◦ ◦ ◦ I L I_L IL),在固定 I L ′ I^{'}_L IL′和 I H I_H IH的情况下,可以通过α= std( I H I_H IH)/std( I L ′ I^{'}_L IL′)和β= mean( I H I_H IH)-αmean( I L ′ I^{'}_L IL′)来获得用于亮度调整的参数,这可以确保亮度调整后的 I L ′ I^{'}_L IL′具有与 I H ′ I^{'}_H IH′相同的像素均值和方差。
然后我们求解固定α和β的仿射变换矩阵
τ
τ
τ。 根据目标函数w.r.t.
τ
τ
τ是非线性的,可以通过局部线性近似来迭代求解:
J是C(
τ
τ
τ
◦
◦
◦
I
L
I_L
IL) w.r.t.
τ
τ
τ的雅可比矩阵
w
w
w表示权重矩阵
⊙表示逐元素乘法
最后
τ
τ
τ可以根据
τ
τ
τ=
τ
τ
τ+△
τ
τ
τ更新。
通过迭代估计亮度调整参数和仿射变换矩阵。 由于之前的缩放因子信息可提供的良好初始化,因此优化过程在5次迭代中收敛。 收敛后,我们可以获得对准的LR图像,即 I L A I^{A}_L ILA=αC( τ τ τ ◦ ◦ ◦ I L I_L IL)+β。
4 基于拉普拉斯金字塔的内核预测网络
网络结构:
对于RealSR数据集中的LR图像,模糊内核随场景的深度而变化,而DoF随焦距而变化。 像在大多数以前的基于CNN的SISR方法中所做的那样,训练直接将LR图像转换为HR图像的SISR模型可能不是一种经济有效的方法。
因此,我们建议训练一个内核预测网络(KPN),该网络明确学习每个像素的单个内核。 与那些直接像素合成网络相比,KPN已被证明在去噪,动态去模糊等任务中具有效率,可解释性和泛化能力方面的优势。
受益于拉普拉斯金字塔,学习三个内核
k
×
k
k×k
k×k可以等同地使其具有原始分辨率大小
4
k
×
4
k
4k×4k
4k×4k的接受野,从而显著降低了直接学一个
4
k
×
4
k
4k×4k
4k×4k接受野的卷积核。
损失函数:
5 实验
模拟数据集vs真实数据集:
在RealSR数据集上训练的SISR模型:
跨相机测试:
测试数据集以外的图像: