综述文章
2022年的一篇综述
A Review of Single Image Super-Resolution Reconstruction Based on Deep Learning
数据的退化方式
- 简单退化:下采样操作,如插值算法。
- 一般退化:在下采样的基础上考虑模糊、噪声。
- 复杂退化:通过构建模型生成更复杂的退化图片,考虑下采样、模糊、噪声、JPG压缩方式。
- 无监督退化:通过GAN生成与原始图片分布一致的退化图片。
数据集
数据集名称 | 图像数量/张 | 合成/真实数据集(训练集/验证集/测试集 | 图像格式 | 图像内容 |
---|---|---|---|---|
T91 | 91 | 合成数据集(训练集) | PNG | 包括动植物、人、车等局部纹理图像 |
Timofte | 110 | 合成数据集(训练集) | PNG | 包括T91,Set15和Set14三个数据集的图像 |
291-images | 291 | 合成数据集(训练集) | PNG,JPG | 包括T91和BSD两个数据集的图像 |
General-100 | 100 | 合成数据集(训练集) | BMP | 包括建筑纹理、动植物、人、食物、日用品等图像 |
MSCOCO | 328 000 | 合成数据集(训练集) | JPG | 包括91种易识别物体类型在自然环境中的复杂日常场景的图像 |
ImageNet | 3200 000 | 合成数据集(训练集) | JPG | 包括动植物、交通工具、家具、乐器、地质构造、工具等图像 |
DIV2K | 1 000 | 合成数据集(800张训练集、100张验证集、100张测试集) | PNG | 包括人、手工艺品、环境(城市、村庄)、动植物、自然风景等图像 |
Flickr2K | 2650 | 合成数据集(训练集) | PNG | 包括人、车、动植物、食物、建筑和风景等图像 |
DF2K | 3450 | 合成数据集(训练集) | PNG | 包括DIV2K和Flickr2K两个数据集的图像 |
DPED | 5827 | 真实数据集(5614张训练集、113张验证集、100张测试集) | PNG | 包括各种道路交通场景(建筑、植物、道路等)等图像 |
OutdoorScene(OST) | 10624 | 合成数据集(10324张数据集、300张测试集,即OST300) | PNG | 包括动物、建筑、草、山、植物、天空和水等7类纹理丰富的图像 |
DIV8K | 1504 | 真实数据集(1304张训练集、100张验证集、100张测试集) | PNG | 包括人、动物、建筑和风景等各种场景和物体的图像 |
RealSR | 595 | 真实数据集(550张训练集、45张测试集) | PNG | 包括建筑、风景、动植物、海报、物体等纹理丰富的室内外场景图像 |
DRealSR | 88(x2)78(x3)84(x4) | 真实数据集(对于尺度因子2,3,4分别用83,84,93张图像进行测试,其余用于训练) | PNG | 包括广告海报、植物、办公室、建筑物、等室内外场景的图像 |
Set5 | 5 | 合成数据集(测试集) | PNG | 包括婴儿、鸟、蝴蝶、头部和女士等5张图像 |
Set14 | 14 | 合成数据集(测试集) | PNG | 包括动植物、风景(船和桥)、PPT和人等图像 |
Berkeley Segmentation Dataset(BSD)/BSD500 | 500 | 合成数据及(测试集) | PNG | 包括动物、建筑、食物、风景、人和植物等图像,BSD100和BSD300分别是BSD500中常用的100或300张图片 |
Urban100 | 100 | 合成数据集(测试集) | PNG | 包括不同类型的建筑图像 |
Manga109 | 109 | 合成数据集(测试集) | PNG | 包括来自日本漫画书的图像 |
PIRM | 200 | 合成数据集(100张验证集、100张测试集) | PNG | 包括人、物、环境、植物、自然风景等图像 |
DIV2KRK | 100 | 合成数据集(测试集) | PNG | 包括对DIV2K验证集的100张图像进行更复杂退化操作的图像 |
DIV2K4D | 400 | 合成数据集(测试集) | PNG | 包括对100张DIV2K验证集采取四种退化的图像 |
人脸数据
- FFHQ全称Flickr-Faces-High-Quality(Flickr-Faces-HQ),最初是作为生成式对抗网络(GAN)的基准创建的,也用于StyleGAN的训练数据集中,并由英伟达于2019年开源。FFHQ是一个高质量的人脸数据集,包含1024×1024分辨率的70000张PNG格式高清人脸图像,在年龄、种族和图像背景上丰富多样且差异明显,在人脸属性上也拥有非常多的变化,拥有不同的年龄、性别、种族、肤色、表情、脸型、发型、人脸姿态等,囊盖普通眼镜、太阳镜、帽子、发饰及围巾等多种人脸周边配件,因此该数据集也是可以用于开发一些人脸属性分类或者人脸语义分割模型的。FFHQ的图像从Flickr上爬取,且均有许可才会下载,并使用了dlib进行人脸对齐和裁剪,之后使用算法移除了一些非真实人脸如雕像、画作及照片等图像。github地址
- 虚拟人脸与真实人脸数据,包含了styleGAN以及styleGAN2生成的人脸数据,以及真实的动漫、明星,模特等高清人脸数据。
网络模型的基本框架
根据上采样层在网络模型中位置的不同,可将模型基本框架划分为4种类型:预上采样、后上采样、渐进式上采样、迭代式上下采样。
经典网络模型总结
LR图像获取方式:Bi⁃cubic表示双三次下采样,B表示模糊核,GB表示高斯模糊核,N表示噪声,GN表示高斯噪声,J表示JPEG压缩. 由于数据增强能够扩大数据容量,减少迭代次数,并在一定程度上提升网络性能,所以许多网络模型常通过随机翻转、旋转和缩放等操作对数据集进行数据增强.
网络名称–发表时间(类型) | 网络框架(上采样方法) | 训练集 | LR图像获取方式 | 数据增强 | 测试集 | 损失函数 | 评价指标 |
---|---|---|---|---|---|---|---|
ESRGAN–2018(基于GAN) | 后上采样(最近邻插值) | DIV2K,Flickr2K,OST | Bicubic | 翻转、旋转 | Set5,Set14,BSD100,Urban100,PIRM | Lpercep,LGAN,L1 | PSNR,PI |
RealSR–2020(无监督式) | 后上采样(最近邻插值) | ①DF2K ②DPED | 无监督式退化模型 | —— | ①DF2K ②DPED | L1,Lpercep,LGAN | ①PSNR,SSIM,LPIPS②MOR |
SwinIR–2021(基于Transformer) | 后上采样(亚像素卷积) | DIV2K,Flickr2K | ①Bicubic②B+下采样+N | —— | Set5,Set14,Urban100,BSD100,Manga109 | ①L1②L1,LGAN,Lpercep | PSNR,SSIM,Params,Mult-Adds |
Real-ESRGAN–2021(基于GAN) | 后上采样(最近邻插值) | DIV2K,Flickr2K,OST | Bicubic+B+N+J | —— | RealSR,DRealSR,OST300,DPED,ADE20K | L1,Lpercep,LGAN | 视觉效果 |
codeFormer(2022) | 后上采样 | FFHQ | —— | —— | —— | 多个阶段的损失函数 | PSNR,SSIM,LPIPS |
SAFMN(2023) | 后上采样 | DIV2K,Flickr2K | —— | —— | —— | ——— | PSNR,SSIM |
DAT(2023) | 后上采样 | DIV2K,Flickr2K | —— | —— | —— | ——— | PSNR,SSIM |
RGT(2024) | 后上采样 | DIV2K,Flickr2K | —— | —— | —— | ——— | PSNR,SSIM |