《VESR-Net: The Winning Solution to Youku Video Enhancement and Super-Resolution Challenge》论文阅读

原文链接:https://arxiv.org/pdf/2003.02115.pdf

这篇论文获得了 “阿里巴巴优酷视频增强和超分辨率挑战赛” 的第一名,其整体的网络结构如下:

其中几个重要的模块如下:

1、PCD Convolution:将邻近帧与参考帧进行对齐

2、Seperate Non-Local:将不同帧所包含的信息进行融合

3、CRAB:通道注意力残差模块

 

一、PCD Concolution( Alignment with Pyramid, Cascading and Deformable Convolution,用金字塔、级联的方式和可变形卷积进行对齐操作):将邻近帧与参考帧进行对齐

结构如下:

1、红线左边从上到下是一个金字塔型的结构,输入参考帧 I_{t} 和邻近帧 I_{t+i} ,对它们分别进行卷积操作,得到特征图 F_{t}^{L_{1}}F_{t+i}^{L_{1}},进行步长为2的卷积,得到特征图 F_{t}^{L_{2}}F_{t+i}^{L_{2}},再进行步长为2的卷积,得到特征图 F_{t}^{L_{3}}F_{t+i}^{L_{3}}

2、红线右边从下到上是所预测的、逐级细化的偏移量(offset)和对齐后的特征(aligned features)。其中偏移量和特征的表达式分别如下:

其中,\Delta P_{t+i}^{l} 为邻近帧 I_{t+i} 在第 l 层相对于参考帧 I_{t} 的偏移量,fg 是由几个卷积层组成的通用函数,[F_{t+i},F_{t}] 是将第 l 层的邻近帧特征图和参考帧特征图连接(concatenation)起来。f(\cdot )DConv(\cdot )g(\cdot ) 括号里面两个参数也都是先进行的连接操作(concatenation) 。Dconv是可变形的卷积(Deformable Convolution)。↑2 代表以 bilinear interpolation  进行 x2 上采样, (F_{t+i}^{a})^{l} 代表第 l 层已经对齐后的特征。

PCD这种由粗到细(coarse-to-fine)的对齐方法提高了对齐操作的准确度,而且PCD对齐模块可以和整个网络一起学习,不需要额外的监督信息或者在其它任务上进行预训练的操作。

 

二、Seperate Non-Local:将不同帧所包含的信息进行融合

直接使用 Non-local 操作会生成一个大小为 R^{N*N}N = T * H * W,为视频片段中的像素数)的关系矩阵(relation matrix),参数量很大,计算复杂度高。因此作者提出 Separate Non-local,将空间维度、通道(channel)维度和时间维度进行分离。

如上图所示,对于一个传进来的特征图FT*C*H*W),将其分为三路进行处理,每一路由 F 生成两个新的特征图 A_{i}B_{i}i=1,2,3)。第一路:将 A_{1}B_{1} 的大小调整(reshape)为 R^{C*T*N_{1}},其中N_{1}=H*W,将 A_{1} 进行维度转换与 B_{1} 相乘,得到关系矩阵 M_{1}\in R^{HW*HW}M_{1} 代表了空间维度的相似性;同理,第二路:将 A_{2}B_{2} 的大小调整(reshape)为 R^{T*H*W*N_{2}},其中N_{2}=C,将 A_{2} 进行维度转换与 B_{2} 相乘,得到关系矩阵 M_{2}\in R^{C*C}M_{2} 代表了通道(channel)维度的相似性;第三路:将 A_{3}B_{3} 的大小调整(reshape)为 R^{C*H*W*N_{3}},其中N_{3}=T,将 A_{3} 进行维度转换与 B_{3} 相乘,得到关系矩阵 M_{3}\in R^{T*T}M_{3} 代表了时间维度的相似性。同时,将特征图 F 分别通过三个卷积层得到三个新的特征图 D_{1}D_{2}D_{3} ,再分别将它们调整(reshape)为 R^{C*T*N_{1}}R^{T*H*W*N_{2}}R^{C*H*W*N_{3}},将 D_{i} 进行维度转换再和对应的 M_{i} 相乘,得到 E_{i} (i=1,2,3),最后将 FE_{i} (i=1,2,3) 相加得到最终融合后的特征。

 

三、CRAB:通道注意力残差模块

这部分比较简单,就是一个残差结构,里面放了个通道注意力机制模块。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值