经典视频超分论文总结2

是暮涯啊

已于 2022-05-23 16:42:12 修改

阅读量3.2k

点赞数 3

分类专栏：深度学习文章标签：深度学习计算机视觉视频超分超分

于 2021-12-14 10:16:49 首次发布

本文链接：https://blog.csdn.net/longshaonihaoa/article/details/121910411

版权

深度学习专栏收录该内容

41 篇文章 17 订阅

订阅专栏

书接上回，咱继续写paperwithcode中VID4排行榜上的论文

7、Detail-revealing Deep Video Super-resolution(DRDVSR, ICCV2017)

港中文的工作，贾佳亚大佬背书，虽然有公开代码，但是直接使用pb文件，所以无法查看具体模型。即使把pb用tensorboard可视化出来也超级乱。网络整体结构如下：
在这里插入图片描述

7.1 先说一下动量估计（Motion Estimation， ME）

直接采用第一篇讲解中VESPCN的MCT模块获得光流预测图F，该部分不需要原文模块中最后的warp操作。

7.2 主要说一下SPMC

这部分所有分析都说很重要，但是原文讲的我感觉蛮乱的，而且使用的字母表达和下图中字母也不一样。比如文中示用 $J^{L}$ 、 $J^{H}$ 表达图像，下面图示又是用 $I^{L}$ 、 $Y$ 。你再看看上面图示，又是 $I^{L}$ 、 $J^{H}$ 。我建议不要看图示了，直接看公式，因为这俩也不匹配。

SPMC包含采样栅极发生器（Sampling Grid Generator）和图像采样器（Image Sampler）前者用于将光流放大，后者用于将图像放大并与光流结合。

7.2.1 采样栅极发生器（Sampling Grid Generator）

令 $F = (u, v)$ ，图像坐标 $(x, y)$ 。坐标转换表示为：

这时候得到的 $x^{s}, y^{s})$ 还只是坐标变换值。
代码实现很简单：

mapping = (get_coords(img) + flow) * scale

7.2.2 可导的图像采样器（Differentiable Image Sampler）

这段甚是麻烦，作者网络实现都还没讲清，就介绍可导性了。图像采样的实现公式表达如下

其中 $M (x) = m a x (0, 1 - ∣ x ∣)$ ，为双线性插值核。看公式很简单，将采样后的坐标 $(x^{s}_{p}, y^{s}_{p})$ 与放大后的坐标 $x_{q}, y_{q})$ 做差,然后计算双线性插值，再与原图 $J^{L}_{p}$ 相乘。
但问题是1）坐标与LR图像相乘的意义是什么？2）对LR的坐标p求和，又是什么意义？表示双线性插值的那个求和吗？
我个人觉得具体实现是这样的：一般的warp得到光流F后，直接在LR空间对LR图像进行warp。得到的结果依旧是在LR空间的。本文作者将光流F通过乘以系数 $\alpha$ 变换到HR空间，同时将LR图像也经过双线性插值变换到HR空间，然后在HR空间进行warp。个人能力有限，欢迎大佬拍砖解答

7.2.3 SPMC优点

1）将第0帧映射到第i帧，而非其他常用的超分方法将第相邻帧映射到中间帧。
2）提升动量补偿可以直接就产生高质的SR结果，因此用SPMC。
3）在动量补偿时同时扩大尺寸

7.3 最后聊聊细节融合网络（Detail Fusion Net）

说 $J^{H}$ 是大尺寸，而且稀疏具有很多0，所以先降采，然后中间使用LSTM融合多帧信息。此处有个点说之前的VSR可以产生尖锐边缘，但不知道是输入帧固有的，还是从额外数据学的，经过证明发现只有真实的HR细节有用。

7.4 loss

phase1: ME时使用L1 loss
phase2: DF时使用L2 loss
phase3: 最后用上述两者联合训练

8、Recurrent Back-Projection Network for Video Super-Resolution（RBPN，CVPR2019）

这篇很好理解，大概看图就懂。代码
与其他网络通过warp或者stack将多帧堆叠在一起不同，本文将每对(距离当前帧相同远的)上下文信息帧作为分开的信息源。意思就是👇图一样，每个 $I_{t-n}$ 和 $F_{t-n}$ 单独和 $I_{t}$ 输入网络。
在这里插入图片描述
其中F为预先得到的光流图。代码实现为：

def get_flow(im1, im2):
    im1 = np.array(im1)
    im2 = np.array(im2)
    im1 = im1.astype(float) / 255.
    im2 = im2.astype(float) / 255.
    
    # Flow Options:
    alpha = 0.012
    ratio = 0.75
    minWidth = 20
    nOuterFPIterations = 7
    nInnerFPIterations = 1
    nSORIterations = 30
    colType = 0  # 0 or default:RGB, 1:GRAY (but pass gray image with shape (h,w,1))
    u, v, im2W = pyflow.coarse2fine_flow(im1, im2, alpha, ratio, minWidth, nOuterFPIterations, nInnerFPIterations,nSORIterations, colType)
    flow = np.concatenate((u[..., None], v[..., None]), axis=2)
    #flow = rescale_flow(flow,0,1)
    return flow

网络分为三部分。

8.1、初始特征提取（Initial feature extraction）

如上图所示，就是一个卷积。

8.2 多个投影（Multiple Projections）

公式和图像都很容易理解，将 $L_{t-n-1}$ 和 $M_{t-n}$ 输入Encoder网络，得到输出 $L_{t-n}$ 用于下一投影的输入， $H_{t-n}$ 用于重建

8.3 重建

多个 $H_{t}$ concat然后卷积

9、Frame-Recurrent Video Super Resolution （FRVSR，CVPR2018）

google大佬18年工作，但是效果比很多19，20的还要好。

9.1 摘要

本文认为当前的VSR是把多帧图输入，得到一帧HR结果，然后划窗式移动。但是缺点在于1）每个帧处理和warp很多次，增加计算消耗。2）每个输出帧都是根据输入帧独立估计的，这限制了系统产生时间一致结果的能力。（bb一下：这句对比RNN就知道他在说什么了，rnn会一直把隐藏信息向后传）。本文提出帧循环的RNN框架，用之前推断的HR帧推测之后的帧。这自然会鼓励时间一致的结果，并通过在每个步骤中仅扭曲一个图像来降低计算成本。此外，由于其循环性质，所提出的方法能够在不增加计算需求的情况下同化大量先前的帧。（bb一下，我觉得不怎么能，因为rnn问题就是记不住太长序列，要不然也不会有LSTM）

9.2 网络结构

网络结构还是蛮简单的，基本看图就能理解，简单提几点。
整体架构
1、图中显示了RNN一次循环的过程，输入图像有 $I_t$ 和 $I_{t-1}$ ，上一帧的输出 $I^{est}_{t-1}$ 会继续用于当前帧的输入。
2、 $F^{LR}$ 经双线性插值得到 $F^{HR}$
3、 $L_{flow}$ 用于学习FNet，将warp后的 $I^{LR}_{t-1}$ 与 $I^{LR}_{t}$ 做L2 loss。 $L_{sr}$ 用于学习SRNet。

9.3 FNet和SRNet的网络结构

在这里插入图片描述
如图，上面是FNet，下面是SRNet。

是暮涯啊

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
经典视频超分论文总结2

书接上回，咱继续写paperwithcode中VID4排行榜上的论文前面的论文可以查看地址经典视频超分论文总结1经典视频超分论文总结27、Detail-revealing Deep Video Super-resolution(DRDVSR, ICCV2017)港中文的工作，贾佳亚大佬背书，虽然有公开代码，但是直接使用pb文件，所以无法查看具体模型。即使把pb用tensorboard可视化出来也超级乱。推荐另一个torch复现的代码。7.1 先说一下动量估计（Motion Estimation
复制链接

扫一扫