经典视频超分论文总结1

是暮涯啊

已于 2022-04-13 20:39:43 修改

阅读量1.7k

点赞数 2

分类专栏：深度学习文章标签：视频超分深度学习卷积神经网络循环网络光流估计

于 2021-10-22 18:47:11 首次发布

本文链接：https://blog.csdn.net/longshaonihaoa/article/details/120906670

版权

深度学习专栏收录该内容

41 篇文章 18 订阅

订阅专栏

本文总结一下PaperWithCode中VID4榜上的几篇超分论文。

1、Bidirectional Recurrent Convolutional Networks for Multi-Frame Super-Resolution（BRCN， NeurIPS 2015）

https://proceedings.neurips.cc/paper/2015/file/c45147dee729311ef5b5c3003946c48f-Paper.pdfhttps://proceedings.neurips.cc/paper/2015/file/c45147dee729311ef5b5c3003946c48f-Paper.pdf

首次提出使用双向循环卷积神经网络来处理多帧视频超分任务。

网络包含3个组件。1）前向卷积（黑色箭头）学习LR与HR之间的视觉空间独立性。2）循环卷积（蓝色箭头）通过连接连续帧的相邻隐藏层，对视频帧之间的长期时间依赖性进行建模，其中当前隐藏层在前一时间步的隐藏层上进行调节。前向反向均使用来充分利用时间动态。3）条件卷积（红色箭头）将上一时间步的输入层连接到当前隐藏层，使用以前的输入提供长期上下文信息。

隐藏层 网络使用两层隐藏层，表示为：

Xi为输入，Xi+1 相邻帧，Hi+1相邻帧的隐藏层，W权重，B偏置。激活函数为ReLU

输出层 结合了正向反向条件卷积和前向卷积的输出和偏置，公式如下：

损失函数 MSE loss

2、Image Super-Resolution Using Deep Convolutional Networks（SRCNN，TPAMI2015）

何凯明、汤晓鸥两位大佬的巨作，据说是开创DNN用于图像重建的先河。网上资料巨多，我鹦鹉学舌简单讲讲。

2. 1、网络结构

网络如上图所示，包含三层卷积。分别叫 Patch extraction and representation（块析出与表示）、Non-linear mapping（非线性映射）、Reconstruction（重构）

Patch extraction and representation：对输入图像进行特征提取，卷积+ReLU，ks=9 x 9 c = 64

Non-linear mapping：特征非线性映射，卷积+ReLU，ks=1 x 1 c = 32

Reconstruction：特征重建，生成高分辨率图像，卷积，ks=5 x 5 c = 1

最后c=1是因为只采用Y通道进行重建。

2.2 损失函数 MSE

3、Deep Back-Projection Networks For Super-Resolution（DBPN，CVPR2018）

论文是这么想的：原来的超分要么是a）直接把图像差值到HR大小。 b）最后阶段上采。c）慢慢分几次上采。作者说你们太单调了，让我们一会上采一会下采。于是提出了以下两组上采和下采的结构。

第一组左边，用于DBPN的上采下采模块

第二组右边，用于Dense-DBPN的上采下采模块

所以将第一组嵌入图1的（d）就是DBPN。将第二组模块嵌入下面的网络，得到Dense-DBPN。

其中DBPN包含S，M，L三种网络，分别对应t=2，t=4，t=6。所以主体结构基本看图就可以了解了。

4、Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network（ESPCN， CVPR2016）

SISR工作，本文比论文3更早。他说你们现在超分都是开始就先上采，然后再重建，所以你们的操作都是在HR空间进行的，但是这样速度太慢了。因此我们直接在LR空间一直卷卷卷，最后再上采好了，这样速度多快。

更重要的是，本文首次提出了一个亚像素卷积层 (sub-pixel convolutional layer)。在网络最后的输出RxR通道，然后重排成RxR尺寸

我就喜欢这种凭空创造点新玩意的创新，膜拜一波

损失函数： MSE

5、Real-Time Video Super-Resolution with Spatio-Temporal Networks and Motion Compensation（VESPCN，CVPR2017）

论文地址： https://arxiv.org/pdf/1611.05250v2.pdf

代码地址：GitHub - JuheonYi/VESPCN-PyTorch

VSR的工作。看看这名字，比4的ESPCN只多一个V。本文主要是说，SISR不能利用帧间的时序信息，但是其他人利用时序信息又速度太慢。让我来，即利用时序信息，又能满足实时性的要求。

5.1 动量补偿

咱先学习一下这个文章最难搞懂的地方，就是开始对输入进行的Warp操作。该操作图示为

首先一个网络估计粗糙的光流，并生成粗糙的目标帧，这两个再和原始两个帧输入网络，得到精细的光流，和粗糙光流一起得到最后的帧。这个估计光流的网络结构如下：

网络的损失函数 Huber loss， MSE

warp的实现如下。关于这个grid_sample函数可以看这篇知乎文章，讲解的超级详细。

def warp(self, img, flow): 
    img_compensated = torch.nn.functional.grid_sample(
                      img, 
                      (-flow.permute(0,2,3,1)+self.identity_flow).clamp(-1,1),             
                       padding_mode='border')         

    return img_compensated