论文:MuCAN:多对应聚合的视频超分
文章检索出处: 2020 ECCV
摘要和简介
本文提出了:
1. 一种时间多对应聚合(TM-CAM)策略,去利用跨帧的相似补丁
2. 一种跨尺度的非局部对应的聚合(CN-CAM)方案,去探索帧内不同尺度的自相似性
3. 引入了边缘感知损失,使所提议的网络能够生成更好的边缘
基于上述,我们建立了一个有效的多对应聚合网络(MuCAN),实现了SOTR。
模型
overview
输入2N+1个连续帧去预测中心帧。模型由三部分构成:TM-CAM、CN-CAM和重构模块。
时间多对应聚合模块
给定两个相邻的LR帧
I
t
−
1
L
I_{t-1}^{L}
It−1L和
I
t
L
I_{t}^{L}
ItL,先将它们编码为较低的分辨率(从
l
0
l_0
l0到
l
2
l_2
l2)。然后,聚合从较低分辨率开始(
F
‾
t
−
1
l
=
2
\overline F_{t-1}^{l=2}
Ft−1l=2)以补偿大运动,逐渐向上移动至较高分辨率(
F
‾
t
−
1
l
=
0
\overline F_{t-1}^{l=0}
Ft−1l=0)用于细微的亚像素移动。
上述中的每个聚合单元使用基于补丁的匹配策略,我们汇总多个候选者以充分获取上下文信息。具体的说,首先选择top-K个最相似的特征补丁,然后使用像素自适应聚合方法把他们融合为一个像素。以对齐
F
t
−
1
l
F_{t-1}^{l}
Ft−1l和
F
t
l
F_{t}^{l}
Ftl为例,在
F
t
l
F_{t}^{l}
Ftl中取一个图像补丁
f
t
l
f_t^l
ftl(表示为特征向量),然后在
F
t
−
1
l
F_{t-1}^{l}
Ft−1l中取最接近的neighbors,使用相关性作为距离度量,相关性定义为归一化距离内积:为了效率,局部搜索区域需满足
∣
P
t
−
P
t
−
1
∣
≤
d
|P_t-P_{t-1}|≤d
∣Pt−Pt−1∣≤d,其中
P
t
P_t
Pt是
f
t
l
f_t^l
ftl的位置向量,d表示最大距离。在计算了所有的相关性之后,降序选择前K个最相关补丁,并将它们串联和聚合起来:
其中
A
g
g
r
Aggr
Aggr为卷积层。对于
f
‾
t
−
1
l
\overline f^{l}_{t-1}
ft−1l中的每个像素,我们设计了一种自适应聚合策略而不是相等的权重去进行聚合。权重图是串联
F
t
−
1
l
F_{t-1}^{l}
Ft−1l与
F
t
l
F_t^l
Ftl后通过一个卷积层获得的。当补丁大小为S x S时,权重图的Size为H x W x
S
2
S^2
S2:对齐的相邻帧
F
‾
t
−
1
l
\overline F_{t-1}^{l}
Ft−1l上的位置
P
t
P_t
Pt的最终值为:重复2N次上述步骤,我们得到一组对齐的相邻特征图{
F
t
−
N
l
,
.
.
.
,
F
t
−
1
l
,
F
t
+
1
l
,
.
.
.
,
F
t
+
N
l
F^{l}_{t-N},...,F^{l}_{t-1},F^{l}_{t+1},...,F^{l}_{t+N}
Ft−Nl,...,Ft−1l,Ft+1l,...,Ft+Nl}。我们以
I
t
L
I_{t}^{L}
ItL为输入进行自聚合去产生
F
‾
t
0
\overline F_t^0
Ft0。将这些特征图通过卷积和PixelShuffle操作融合成一个双空间大小的特征图,以保持亚像素细节。
跨尺度的非局部对应聚合模型
我们使用
M
t
s
M_t^s
Mts代表t时刻的特征图。我们对特征图进行下采样得到一个特征金字塔:
其中
A
v
g
P
o
o
l
AvgPool
AvgPool是步长为2的平均池化。在
M
t
0
M_t^0
Mt0中给定一个以
p
t
p_t
pt为中心的补丁
m
t
0
m_t^0
mt0,我们在其他三个尺度上进行非局部搜索:其中,
m
~
t
s
\tilde m^s_t
m~ts代表对于
m
t
0
m_t^0
mt0最邻近的补丁。在合并之前,利用自我注意模块来确定信息是否有用。最终,
m
‾
t
0
\overline m_t^0
mt0被计算为:其中
A
t
t
Att
Att是注意力单元,Aggr是卷积层。
边缘感知损失
VSR方法重建的高分辨率图像往往是由锯齿状边缘提取的。为了减轻这个问题,我们提出了一种边缘感知的损失,以产生更好的再生边缘。首先利用边缘检测器提取地面真实HR图像的边缘信息。然后对检测到的边缘区域进行加权,使得网络在学习过程中更加重视这些区域。
本文选用拉普拉斯变换作为边缘检测器。给定地面真实信息
I
t
H
I^H_t
ItH,由探测器得到边缘映射
I
t
E
I^E_t
ItE,在
p
t
p_t
pt 处的二进制掩码值表示为:其中
δ
\delta
δ是阈值。训练时,我们采用Charbonnier损失,定义为:其中
I
^
t
H
\hat I^H_t
I^tH是预测的HR结果,
ϵ
\epsilon
ϵ是常量。最终的损失定义为:其中○代表的是元素相乘。
经验
数据集
REDS共有300个视频序列。我们将数据分成新的训练(266个序列)和测试(4个序列)数据集。新的测试部件包含000,011,015和020序列。
Vimeo-90K中训练和测试分别包含64612和7824个视频序列。
在我们的实验中,峰值信噪比(PSNR)和结构相似性指数(SSIM)被用作衡量指标。
实施细节
网络以5(或7)个连续帧作为输入。在特征提取和重建模块中,分别使用5个和40个(7帧为20个)残差块,通道数量为128。在图3中,补丁大小为3,最大位移从低到高设置为{3,5,7},K值设置为4。在跨尺度聚合模块中,我们将补丁大小设为1,并融合来自4个尺度的信息。
培训我们使用8个NVIDIA GeForce GTX 1080Ti GPU来训练我们的网络,每个GPU的小批量大小为3。训练需要对所有数据集进行6000k次迭代。我们使用Adam作为优化器,使用学习速率衰减策略且初始值为
4
e
−
4
4e-4
4e−4。对输入图像进行随机裁剪、翻转和旋转增强。裁剪尺寸为64 x 64,对应输出尺寸256 x 256。旋转选择为90 ℃或
−
90
℃
-90℃
−90℃。在计算边缘感知损耗时,我们将
δ
\delta
δ和
λ
\lambda
λ都设置为0.1。测试集评估时不使用边界剪裁。
消融实验
本实验中为了方便,我们采用轻量级设置。在这一节中。将通道大小设置为64,重构模块包含10个残差块。同时,训练迭代的数量减少到200K。
有无TM-CAM模块的残差图可视化与平均L1距离:
与SOTR模型的对比
模型对比可视化:
仅供学习使用,请勿转载。