论文笔记(SR)-Super-Resolution via Deep Learning(详解SRCNN)
论文下载:https://arxiv.org/pdf/1706.09077.pdf
文章以深度学习为背景,对SR文献进行了考察。关注多媒体的三个重要方面,即图像、视频和多维度,尤其是深度映射。
在每种情况下,首先以数据集和最先进的SR方法(不包括深度学习)的形式引入相关基准。接下来是对各个算法的详细分析,每个算法都包括对方法的简短描述和对结果的评论,并特别参照所做的基准测试。然后是对一些常见数据集以比较的形式进行的最小总体基准测试,同时依赖于各种算法论文中的结果。
1 超分辨率(Super-resolution,SR)概述
在天文学、遥感、显微术和断层摄影术等领域,获得的图像可能受到各种因素的限制。这些因素可能包括测量装置的缺陷,如光学退化或传感器的有限容量,不稳定的观测现场,物体运动或介质湍流。受影响的图像可能不清晰,有噪声,缺乏空间和/或时间分辨率。补救措施可以是单独或结合使用盲反卷积(消除模糊)和超分辨率。
超分辨率(Super-resolution,SR)是指从同一场景的一个或多个低分辨率(low resolution,LR)观测中估计高分辨率(high resolution,HR)图像/视频,通常采用数字图像处理和机器学习(machine learning,ML)技术。由于在大多数情况下是一个逆问题,可能有不止一个解,每个解都需要构建一个正向观测模型。关于这个问题的第一次尝试大概可以追溯到1984年;“超分辨率”一词的明确使用是在1990年晚些时候。图4是一个非常详细简单的3层分类。
图4中,第一层根据输入和输出进行分类,分为单输入单输出(single input single output,SISO)、多输入单输出(multiple input single output,MISO)和多输入多输出(multiple input multiple output,MIMO)。MIMO属于视频SR,可以很容易地与第二层合并,这使得第一层冗余。因此,最好直接按照第二层进行分类,即分为两大类,即单幅图像超分辨率(single image super-resolution,SISR)和多幅图像或多帧超分辨率。
1.1 单幅图像超分辨率(SISR)
SISR关注的问题是,在假设原始图像设置不可用的情况下,给定场景的单个LR图像,估计底层HR图像。作为一个不适定的问题,由于可能有好几个HR对应于输入的LR图像,所以SISR可以比作普通的“分析”插值(如线性、双三次和三次样条)。任务可能因此变成计算HR网格中丢失的像素强度作为已知像素的平均值,这样就会在光滑部分工作得很好,但在不连续的情况下有风险出错,如在边缘和角落,导致输出振铃和模糊。因此,除了插值之外,还需要更复杂的洞察力来超解析输入。有两种类型的SISR算法:
- 学习方法(Learning methods) 采用ML技术对输出图像的HR细节进行局部估计。这些可能是基于像素的,包括统计学习,或基于patch的,包括基于字典的LR到HR的平方像素块对应(称为patch)。后者,也称为基于实例的方法,利用同一图像内部的相似性,可以采用各种