论文笔记之超分：FSTRN-resLR-SRFBN-RBPN

最新推荐文章于 2022-01-25 15:20:33 发布

eight_Jessen

最新推荐文章于 2022-01-25 15:20:33 发布

阅读量1.1k

点赞数 2

分类专栏：论文笔记文章标签：计算机视觉神经网络深度学习超分

本文链接：https://blog.csdn.net/eight_Jessen/article/details/108253710

版权

论文笔记专栏收录该内容

49 篇文章 8 订阅

订阅专栏

2014到2018的图片超分文章总结传送门

1. Fast Spatio-Temporal Residual Network for Video Super-Resolution（FSTRN 2019 CVPR）

1.1 网络结构

在这里插入图片描述网络分成了四部分：

LR video shallow feature extraction net（LFENet）
fast spatio-temporal residual blocks (FRBs)
LR feature fusion and upsampling SR net (LSRNet)
global residual learning (GRL) (包括了space residual learning (LRL) and cross-space residual learning (CRL)）

分别用 $I_{LR}$ 和 $I_{SR}$ 表示FSTN的输入和输出，用 $I_{HR}$ 表示目标

1.1.1 LFENet

使用了一个C3D layer从LR视频中提取特征。
$F_0^L = H_{LFE}(I_{LR})$
$F_0^L$ 是提取的feature-maps， $H_{LFE}$ 是C3D操作， $F_0^L$ 用于LR空间的GRL还有FRBs的输入

1.1.2 FRBs

对于第 $d$ 层FRBs，输出表示为
$F_d^L = H_{FRB，d}(F_{d-1}^L) = H_{FRB,d}(H_{FRB,d-1}(...(H_{FRB,1}(F_0^L))...))$
同时LR space residual learning(LRL)也用于LR空间的特征学习，通过 $H_{LRL}$ ，一个组合函数：
$F_{LRL}^L = H_{LRL}(F_D^L, F_0^L)$

FRB模块将一个 $k * k * k$ 的卷积核改成一个 $1 * k * k$ 和 $k * 1 * 1$ 的卷积核。修改了激活函数。所以FRBs块可以写成
$F_d^L = F_{d - 1}^L + W_{d,t}(W_{d,s}(\sigma(F_{d-1}^L)))$
$\sigma$ 表示PReLU激活函数， $W_{d,s}$ 和 $W_{d,t}$ 分别表示空间卷积和时间卷积，公式里没有加入偏差。

FRB
LRL通过PReLU函数，一个dropout层实现。
$F_{LRL}^L = H_{LRL}(F_D^L, F_0^L) = \sigma_L(F_D^L + F_0^L)$

1.1.3 LSRNet

用于在LRL提取特征之后，在HR空间获取超分视频。使用了一个C3D卷积，之后使用deconvution，然后再用C3D做特征融合
$F_{SR}^L = H_{LSR}(F_{LRL}^L)$
再这一部分，还有cross-space residual learning(CRL)，首先通过一个SR mapping从LR空间到HR空间，得到 $F_{SR}^H，最终网络输出为$ $I_{SR} = H_{FSTRN}(I_{LR}) = F_{SR}^L+F_{SR}^H$
$F_{SR}^H = H_{CRL}(I_{LR})$ ,这个映射操作将LR映射到HR空间，尽可能简单，可以是基于双线性、最近邻、双三次、面积和反卷积的插值。

1.1.4 Global residual learning

包括了LR space residual learning（LRL）和Cross-space residual learning(CRL)

1.2 Loss

使用 Charbonnier penalty function, $\rho = \sqrt{x^2 + \epsilon^2}$ 做近似， $\epsilon = 1e -3$ 。
$L(I_{SR},I_{HR};\theta) = \frac{1}{N}\sum_{n = 1}{N}\rho(I_{HR}^n - I_{SR}^n)$

2.Residual Networks for Light Field Image Super-Resolution（resLF）

这篇文章比较难读懂，把自己理解的mark下，也可能和作者做的有偏差。
代码地址

总结：将一个光场中的图像分成不同的子像素偏移量的图像堆栈，然后输入不同的网络分支，从每个分支计算不同空间方向上的剩余信息，并进一步集成以补充视图图像的高频细节。
ResLF

2.1 Method

目标是从一个低像素的图片 $L^{Lr}(x,y,u,v)$ 重建出超分图片 $L^{sr}(x, y, u, v)$ ，其中 $(x, y)$ 是空间域， $(u, v)$ 是角度域。超分的图像最终是 $(r X, r Y, U, V)$ ， $r$ 是放大倍数。将图片转换到YCbCr色彩空间并且只使用Y通道。

总体框架

不同的方向移动的像素可以根据disparity信息组合，产生更高分辨率的图片。本文水平，垂直和对角线方向的子像素移动。
将角度方向记为 $\theta = v/ u$ ，提取图像周围的像素 $I_{\theta = 0}, I_{\theta = 90}, I_{\theta = 45}, I_{\theta = 135}$ 。设计了residual网络结构。如图所示网络有四个分支和一个带有几个residual blocks的全局部分。与其他视图图像相比，一个LF中的中心视图图像具有更多来自相关图像堆栈的可用子像素信息。首先设计网络提高中间视图图像的空间分辨率，每个图像栈image stack的图像数量一样，学习不同角度的LF图片，最终恢复图像。

网络设计

将训练数据记为 ${L^{lr}, I_c^{hr}\}$ ， $I_c^{hr}$ 是gt,中间图像的高像素表示。四个角度的图片栈可以计算得到。网络学习模式 $H_{U*V}$ ，根据输入的 $U * V$ 角度像素图预测中间图像的高像素图像 $I_c^{sr} = H_{U*V}(I_{\theta = 90}, I_{\theta = 45}, I_{\theta = 135}$
每个角度方向的图片栈作为一组数据在每个分支进行编码，然后隐式计算disparity information信息，找到每个视图图片准确的子像素平移，这里每个分支的第一层卷积提取图片栈的特征 $F_{FE_{\theta}} = H_{FE_{\theta}}(I_{\theta}^{lr})$
提取到的特征作为后面的残差模块的输入，对于中心图片，用相似的卷积操作 $F_{FE_c} = H_{FE_c}(I_c^{lr})$
假设每个分支有S个残差模块(S)，第s个残差模块的输出，残差模块和EDSR用的相似。对每个模块，输入会直接加入输出
$F_{RB_{\theta}} = H_{RB_{\theta}, s}(F_{RB_{\theta}, s-1})$
提取了不同分支的特征后，通过全局方式整合特征信息并将他们送入之后丶残差学习模块。 $F_{GRB,d} = H_{GRB,d}(F_{GRB, d - 1}) = H_{GRB,d}(...= H_{GRB,1}(F_{GRB,0})...)$
这里 $F_{GRB,0} = [F_{RB_0,S}, F_{RB_90,S}, F_{RB_45,S}, F_{RB_135,S}]$ 经过了S个RB模块后各个方向分支信息的整合。定义有 $D$ 个全局残差模块 $H_{GRB,d}(\cdot)$ 取提取各个方向的信息，全局残差模块和局部残差模块结构类似，但是是4倍大。然后全局特征送入卷积成 $H_{GF}(\cdot)$ ，然后加入之前提取的中间图像信息 $F_{FE_c}$ 。之后进行上采样 $H_{UP}(\cdot)$ 。使用的是ESPCN的方式。最终 $I_c^{sr} = H_{UP}(H_{GF}(F_{GRB,D}) + F_{FE_c})$

Light Field Super-Resolution(光场超分辨率)

一个LF捕获场景下不同视角的图片有不同的特征，在一个网络对他们同时进行充分是比较困难的。目前有一些基于学习的LFSR方法通过复杂的网络重建LR图像通过将超分过程单独应用到每张图片，或者更具已有的超分视图下的LF计算新的图片。这种方式下，图片是通过不平衡的信息实现超分的，同时，不同视角下的对应信息也不容易保存，对于不同角度方向的超分，网络需要重新训练。对于每张单独的图片，本文通过组合周围图片信息取保持积核结构，提供更灵活的方式取获取不同角度分辨率下的LF图像。
在这里插入图片描述

对于不同的angular分辨率（就是对应上面的 $U * V$ ）,使用不同的resLF网络。文章将LF 图片分成不同部分，对于不是在中间的图片，也看成是对应于其他部分的中间图片，比如对于一个 $7 * 7$ 的分辨率，那么他隔壁的就是 $5 * 5$ ，后面的就是 $3 * 3$ ，对于边界处，进行补零，对于角点其实是 $2 * 2$ ，垂直方向和水平方向大小又是不一样的。

2.2 Loss

L1 loss

3. Feedback Network for Image Super-Resolution（SRFBN 2019 CVPR）

代码地址
总结：文中使用了一个反馈机制feedback mechanism来做超分，high-level的信息通过top-down的方式通过反馈连接进行反馈，网络只需要少量的参数。每次的输出都会计算loss对网络进行调节，所使用的反馈模块可以通过上采样或下采样丰富high-level信息。并提供了密集的skip connections，对于循环神经网络的训练，越到后面所使用的目标gt越难（加的扰动越多），通过这个学习策略网络能够逐步学习复杂的退化模型。
FBN

3.1总体结构

在这里插入图片描述
SRFBN展开有 $T$ 个迭代，每次迭代可分成三部分：

an LR feature extraction block (LRFB)
a feedback block (FB)
a reconstruction block (RB)

全局的连接是一个绕过子网络的上采样图片。每一次子网络每一次迭代都恢复一个残差图像 $I_{Res}^t$ 。同时用 $C o n v (s, n)$ 表示一个有 $n$ 个大小为 $s$ 的卷积核，用 $D e c o n v (s, n)$ 表示反卷积。

LRFB由 $C o n v (3, 4 m)$ 和 $C o n v (3, m)$ 组成。用 $I_{LR}$ 表示输入，则可以获得浅层的特征 $F_{in}^t = f_{LRFB}(I_LR)$

FB: $F_{in}^t$ 作为后续的FB模块输入，从 $F_{in}^1$ 算起。所以对于第 $t$ 次迭代，
$F_{out}^t = f_{FB}(F_{out}^t, F_{in}^t)$
在这里插入图片描述

RB:重建部分 $D e c o n v (k, m)$ 上采样LR特征 $F_{out}^t$ 到HR，然后 $Conv(3,c_{out})$ 产生残差图片 $I_{Res}^t$
$I_{Res}^t = f_{RB}(F_{out}^t)$

最后第 $t$ 次迭代的输出可以表示为 $I_{SR}^t = I_{Res}^t +f_{UP}(I_{LR})$

3.2 Curriculum learning strategy

使用 $L_1$ loss优化，对于复杂的退化模型， $I_{HR}^1, I_{HR}^2, ...,I_{HR}^T)$ 基于任务的苦难程度排列，最终的loss写成:
$L_{\Theta} = \frac{1}{T}\sum_{t=1}^T W^t||I_{HR}^t - I_{SR}^t||_1$
$W_t$ 表示第t次迭代输出的价值，这里设为1。

4. Recurrent Back-Projection Network for Video Super-Resolution（RBPN VSR)

根据保存时序信息的方式，deep VSR可以分成三种方式：

Temporal Concatenation：这种方式不能表示序列上多个运动状态因为输入帧被连接在一起。
Temporal Aggregation：图(b)，这种方法的全局优化比较难因为基本上仍然连接许多输入帧。
RNN

4.1 Recurrent Back-Projection Networks

RBPN
问题描述：
记第 $I$ 帧低像素帧的大小为$ $M^l*N^l)$ ,输入是 $n + 1$ 帧 ${I_{t-n},...,I_{t-1}, I_t\}$ ,这里 $I_t$ 是目标帧。目标是对第 $t$ 帧进行超分得到 $M^h * N^h)$ ,其中 $M^l < M^h, N^l<N^h$ 。
网络结果可以分成三部分：

initial feature extraction
multiple projections
reconstruction

initial feature extraction

在投影模块之前，先对 $I_t$ 提取特征得到 $L_t$ ，对于邻近的帧 $I_{t-k}, k\in[n]$ ，先计算密集运动流 $F_{t-k}$ （每个像素2D向量，怎样得到这个F），讲这个 $F_{t-k}$ 放在 $I_{t}$ 和 $I_{t-k}$ 之间。运动流可以让投影模块提取到 $I_t$ 和 $I_{t-k}$ 之间丢失的的信息。这个叠加的8通道“图像”被映射到相邻的特征张量 $M_{t−k}$

Multiple Projections

通过结合SISR和MISR方法提取目标帧丢失的细节。产生HR特征，这个阶段输入 $L_{t-k-1}$ 和 $M_{t-k}$ ,输出HR特征 $H_{t-k}$

在这里插入图片描述
在RBPN中，mutiple projection使用的是一个循环链，这个循环包括了encoder-decoder模块。模块有两个输入，产生两个输出如上图所示。encoder产生从投影到特定帧的预测HR特征的隐藏状态。解码器对隐藏层解码作为下个编码器的输入。encoder-decoder具体如下。
在这里插入图片描述例子