【论文笔记2_超分辨】（IDN）Fast and Accurate Single Image Super-Resolution via Information Distillation Network

最新推荐文章于 2024-06-25 09:47:19 发布

HaoTianYan

最新推荐文章于 2024-06-25 09:47:19 发布

阅读量2.6k

点赞数 1

分类专栏：超分辨论文笔记 CVPR 2018 文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_41804998/article/details/108629941

版权

超分辨论文笔记同时被 2 个专栏收录

4 篇文章

订阅专栏

CVPR 2018

2 篇文章

订阅专栏

在这里插入图片描述

文章链接：（CVPR 2018）https://arxiv.org/abs/1909.11856v1
代码链接：https://github.com/Zheng222/IDN-Caffe

Abstract

近年来，深卷积神经网络（CNNs）在单图像超分辨率方面取得了令人瞩目的进展。然而，随着网络深度和宽度的增加，基于CNN的超分辨率方法在实际应用中面临着计算复杂度和内存消耗的挑战。为了解决上述问题，我们提出了一种深而紧凑的卷积网络，直接从原始低分辨率图像重建高分辨率图像。

总得来说，该模型由三部分组成，分别是特征提取块、串联在一起的信息蒸馏块和重建块。一个蒸馏Block内包含有一个增强单元（enhancement unit ）和一个压缩单元（compression unit），可以有效地提取局部长路径特征和局部短路径特征。

具体地说，所提出的增强单元将两种不同类型的特征混合在一起，并且压缩单元为序列块提取更多有用的信息。此外，由于每层滤波器数目相对较少，且使用群卷积，因此该网络具有执行速度快的优点。实验结果表明，该方法在时间性能上优于现有（2018）的state-of-the-art 方法。

1. Introduction

首先，文章回顾了下现有的SR方法，主要分为：基于插值、基于重建的方法和基于学习（example-based）的方法这三种。其中，前两种方法在放大倍数较大时表现不佳，所以最近主要以后面一种方法为主。部分现有基于学习的方法：

VDSR（CVPR, 2016）
DRCN（CVPR, 2016）
RED（NIPS, 2016）：对称跳过连接、encoder-decoder
DRRN（CVPR, 2017）

现有模型存在的问题：

现在的为了追求性能，网络越来越深/宽，计算开销和内存消耗越来越大，没法在移动或嵌入式设备上应用；
如VDSR、DRCN等传统卷积网络采用了级联网络的策略（cascaded network topology）有这使得每一层的特征图都无差别得向后传递。Hu等人通过实验指出，如果能自适应地调整通道数，可以进一步提升网络性能。

在这里插入图片描述

2. Network Structure

在这里插入图片描述
该信息蒸馏网络IDN由特征提取块（FBlock）、串联了多个的信息蒸馏块（DBlocks）和重建块（RBlock） 这三部分组成。

2.1 特征提取块（FBlock）

特征提取部分由两个 $3\times3$ Conv组成，其中Conv层后跟的激活函数为LeakyReLU。用公式表示如下：

$\begin{aligned} B_0=f(x) \end{aligned}$

2.2 信息蒸馏块（DBlocks）

信息蒸馏块是整篇文章的重点，主要由增强单元和压缩单元组成。在网络中，经过浅层特征提取之后，有n个信息蒸馏块串联在一起，其中第 $k$ 个信息蒸馏块的输出 $B_k$ 用公式表示为：

$\begin{aligned} B_k=F_k(B_{k-1}), k=1,2,\dots,n \end{aligned}$

2.2.1 增强单元（Enhancement unit）

在这里插入图片描述

增强单元内部也是分为两个模块。第一个模块由3个 $3\times3$ 的Conv+LeakyReLU组成。第 $k$ 个增强单元的模块1如下所示：

$\begin{aligned} P^k_1=C_a(B_{k-1}) , k=1,2,\dots,n \end{aligned}$

其中， $B_{k-1}$ 为上一个块的输出， $C_a$ 是这3个卷积操作。

接着，将输出在通道维度进行切片，其中前 $1 / s$ 用于和输出concat在一起，剩下的 $1 - 1 / s$ 继续送往下面的3个Conv+LeakyReLU。
$\begin{aligned} R^k=C(S(P^k_1,1/s), B_{k-1}),\\ P^k_2=C_b(S(P^k_1,1-1/s)) , \end{aligned}$

值得注意的是，这两个卷积块中的输出通道数 $D_i,i=1,\dots,6$ 分别存在以下的关系： $\begin{aligned} D_3-D_1=D_1-D_2=d\\ D_6-D_4=D_4-D_5=d\\ D_4=D_3 \end{aligned}$

最后，将两者的输出做element-wise相加:
$\begin{aligned} P^k=R^k+P^k_2, \end{aligned}$

2.2.2 压缩单元（Compression unit）

压缩单元其实就是 $1\times1$ 的Conv，从而降低通道数起到“压缩”的效果。

2.2 重建块（RBlock）

见Figure. 2最后一的紫色块，重建块为 $17\times17$ 的反卷积层。

2.3 element-wise相加

最后，将重建出来的与经过bicubic的LR做element-wise相加，输出为最终SR结果。

3. Experiments

网络设置部分，IDN采用看4个信息蒸馏块DBlocks，并且分别设超参数 $D_3=64、d=16、s=4$ 。

在这里插入图片描述

4. Conclusion

可以看到该IDN网络相比当前的state-of-the-art 方法在PSNR不输的情况下，运行速度上有了非常大的提升，几乎都有一到两个数量级的差距了。个人感觉其主要创新点在于Enhancement unit的那个slice操作，在通道层面对其进行切分，一部分继续输入卷积层，另一部分与只经过浅层特征提取的特征图concat，然后两者再做element-wise相加。至于“蒸馏”的实现主要是由 $1\times1$ Conv实现的（有点疑惑，这也能叫蒸馏吗？欢迎留言讨论），效果上看的确不错但感觉在这一点上创新性并不大。