原文链接:https://arxiv.org/pdf/2003.02115.pdf
这篇论文获得了 “阿里巴巴优酷视频增强和超分辨率挑战赛” 的第一名,其整体的网络结构如下:
其中几个重要的模块如下:
1、PCD Convolution:将邻近帧与参考帧进行对齐
2、Seperate Non-Local:将不同帧所包含的信息进行融合
3、CRAB:通道注意力残差模块
一、PCD Concolution( Alignment with Pyramid, Cascading and Deformable Convolution,用金字塔、级联的方式和可变形卷积进行对齐操作):将邻近帧与参考帧进行对齐
结构如下:
1、红线左边从上到下是一个金字塔型的结构,输入参考帧 和邻近帧
,对它们分别进行卷积操作,得到特征图
和
,进行步长为2的卷积,得到特征图
和
,再进行步长为2的卷积,得到特征图
和
。
2、红线右边从下到上是所预测的、逐级细化的偏移量(offset)和对齐后的特征(aligned features)。其中偏移量和特征的表达式分别如下:
其中, 为邻近帧
在第
层相对于参考帧
的偏移量,
、
是由几个卷积层组成的通用函数,
是将第
层的邻近帧特征图和参考帧特征图连接(concatenation)起来。
、
、
括号里面两个参数也都是先进行的连接操作(concatenation) 。
是可变形的卷积(Deformable Convolution)。↑2 代表以 bilinear interpolation 进行 x2 上采样,
代表第
层已经对齐后的特征。
PCD这种由粗到细(coarse-to-fine)的对齐方法提高了对齐操作的准确度,而且PCD对齐模块可以和整个网络一起学习,不需要额外的监督信息或者在其它任务上进行预训练的操作。
二、Seperate Non-Local:将不同帧所包含的信息进行融合
直接使用 Non-local 操作会生成一个大小为 (
,为视频片段中的像素数)的关系矩阵(relation matrix),参数量很大,计算复杂度高。因此作者提出 Separate Non-local,将空间维度、通道(channel)维度和时间维度进行分离。
如上图所示,对于一个传进来的特征图(
),将其分为三路进行处理,每一路由
生成两个新的特征图
、
(
)。第一路:将
、
的大小调整(reshape)为
,其中
,将
进行维度转换与
相乘,得到关系矩阵
,
代表了空间维度的相似性;同理,第二路:将
、
的大小调整(reshape)为
,其中
,将
进行维度转换与
相乘,得到关系矩阵
,
代表了通道(channel)维度的相似性;第三路:将
、
的大小调整(reshape)为
,其中
,将
进行维度转换与
相乘,得到关系矩阵
,
代表了时间维度的相似性。同时,将特征图
分别通过三个卷积层得到三个新的特征图
、
和
,再分别将它们调整(reshape)为
、
和
,将
进行维度转换再和对应的
相乘,得到
(
),最后将
和
(
) 相加得到最终融合后的特征。
三、CRAB:通道注意力残差模块
这部分比较简单,就是一个残差结构,里面放了个通道注意力机制模块。