《VESR-Net: The Winning Solution to Youku Video Enhancement and Super-Resolution Challenge》论文阅读

最新推荐文章于 2022-03-24 16:51:52 发布

jinfeng2411

最新推荐文章于 2022-03-24 16:51:52 发布

阅读量1.3k

点赞数

分类专栏：论文阅读

本文链接：https://blog.csdn.net/qq_34706871/article/details/104707290

版权

论文阅读专栏收录该内容

16 篇文章 3 订阅

订阅专栏

原文链接：https://arxiv.org/pdf/2003.02115.pdf

这篇论文获得了 “阿里巴巴优酷视频增强和超分辨率挑战赛” 的第一名，其整体的网络结构如下：

其中几个重要的模块如下：

1、PCD Convolution：将邻近帧与参考帧进行对齐

2、Seperate Non-Local：将不同帧所包含的信息进行融合

3、CRAB：通道注意力残差模块

一、PCD Concolution（ Alignment with Pyramid, Cascading and Deformable Convolution，用金字塔、级联的方式和可变形卷积进行对齐操作）：将邻近帧与参考帧进行对齐

结构如下：

1、红线左边从上到下是一个金字塔型的结构，输入参考帧 $I_{t}$ 和邻近帧 $I_{t+i}$ ，对它们分别进行卷积操作，得到特征图 $F_{t}^{L_{1}}$ 和 $F_{t+i}^{L_{1}}$ ，进行步长为2的卷积，得到特征图 $F_{t}^{L_{2}}$ 和 $F_{t+i}^{L_{2}}$ ，再进行步长为2的卷积，得到特征图 $F_{t}^{L_{3}}$ 和 $F_{t+i}^{L_{3}}$ 。

2、红线右边从下到上是所预测的、逐级细化的偏移量（offset）和对齐后的特征（aligned features）。其中偏移量和特征的表达式分别如下：

其中， $\Delta P_{t+i}^{l}$ 为邻近帧 $I_{t+i}$ 在第层相对于参考帧 $I_{t}$ 的偏移量，、是由几个卷积层组成的通用函数， $[F_{t+i},F_{t}]$ 是将第层的邻近帧特征图和参考帧特征图连接（concatenation）起来。 $f(\cdot )$ 、 $DConv(\cdot )$ 、 $g(\cdot )$ 括号里面两个参数也都是先进行的连接操作（concatenation）。 Dconv 是可变形的卷积（Deformable Convolution）。↑2 代表以 bilinear interpolation 进行 x2 上采样， $(F_{t+i}^{a})^{l}$ 代表第层已经对齐后的特征。

PCD这种由粗到细（coarse-to-fine）的对齐方法提高了对齐操作的准确度，而且PCD对齐模块可以和整个网络一起学习，不需要额外的监督信息或者在其它任务上进行预训练的操作。

二、Seperate Non-Local：将不同帧所包含的信息进行融合

直接使用 Non-local 操作会生成一个大小为 $R^{N*N}$ （ N = T * H * W ，为视频片段中的像素数）的关系矩阵（relation matrix），参数量很大，计算复杂度高。因此作者提出 Separate Non-local，将空间维度、通道（channel）维度和时间维度进行分离。

如上图所示，对于一个传进来的特征图（ T*C*H*W ），将其分为三路进行处理，每一路由生成两个新的特征图 $A_{i}$ 、 $B_{i}$ （ i=1,2,3 ）。第一路：将 $A_{1}$ 、 $B_{1}$ 的大小调整（reshape）为 $R^{C*T*N_{1}}$ ，其中 $N_{1}=H*W$ ，将 $A_{1}$ 进行维度转换与 $B_{1}$ 相乘，得到关系矩阵 $M_{1}\in R^{HW*HW}$ ， $M_{1}$ 代表了空间维度的相似性；同理，第二路：将 $A_{2}$ 、 $B_{2}$ 的大小调整（reshape）为 $R^{T*H*W*N_{2}}$ ，其中 $N_{2}=C$ ，将 $A_{2}$ 进行维度转换与 $B_{2}$ 相乘，得到关系矩阵 $M_{2}\in R^{C*C}$ ， $M_{2}$ 代表了通道（channel）维度的相似性；第三路：将 $A_{3}$ 、 $B_{3}$ 的大小调整（reshape）为 $R^{C*H*W*N_{3}}$ ，其中 $N_{3}=T$ ，将 $A_{3}$ 进行维度转换与 $B_{3}$ 相乘，得到关系矩阵 $M_{3}\in R^{T*T}$ ， $M_{3}$ 代表了时间维度的相似性。同时，将特征图分别通过三个卷积层得到三个新的特征图 $D_{1}$ 、 $D_{2}$ 和 $D_{3}$ ，再分别将它们调整（reshape）为 $R^{C*T*N_{1}}$ 、 $R^{T*H*W*N_{2}}$ 和 $R^{C*H*W*N_{3}}$ ，将 $D_{i}$ 进行维度转换再和对应的 $M_{i}$ 相乘，得到 $E_{i}$ ( i=1,2,3 )，最后将和 $E_{i}$ ( i=1,2,3 ) 相加得到最终融合后的特征。

三、CRAB：通道注意力残差模块

这部分比较简单，就是一个残差结构，里面放了个通道注意力机制模块。

jinfeng2411

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
《VESR-Net: The Winning Solution to Youku Video Enhancement and Super-Resolution Challenge》论文阅读

原文链接：https://arxiv.org/pdf/2003.02115.pdf这篇论文获得了 “阿里巴巴优酷视频增强和超分辨率挑战赛” 的第一名，其整体的网络结构如下：其中几个重要的模块如下：1、PCD Convolution：将邻近帧与参考帧进行对齐2、Seperate Non-Local：将不同帧所包含的信息进行融合3、CRAB：通道注意力残差模块一、PC...
复制链接

扫一扫