超分概述以及超分数据集

AICVer

已于 2024-05-29 15:59:52 修改

阅读量221

点赞数 1

分类专栏：超分深度学习文章标签：人工智能计算机视觉

于 2024-05-12 01:04:49 首次发布

本文链接：https://blog.csdn.net/u011489887/article/details/138735425

版权

深度学习同时被 2 个专栏收录

59 篇文章 1 订阅

订阅专栏

超分

2 篇文章 0 订阅

订阅专栏

在这里插入图片描述

综述文章

2022年的一篇综述
A Review of Single Image Super-Resolution Reconstruction Based on Deep Learning

数据的退化方式

简单退化：下采样操作，如插值算法。
一般退化：在下采样的基础上考虑模糊、噪声。
复杂退化：通过构建模型生成更复杂的退化图片，考虑下采样、模糊、噪声、JPG压缩方式。
无监督退化：通过GAN生成与原始图片分布一致的退化图片。

数据集

数据集名称	图像数量/张	合成/真实数据集（训练集/验证集/测试集	图像格式	图像内容
T91	91	合成数据集（训练集）	PNG	包括动植物、人、车等局部纹理图像
Timofte	110	合成数据集（训练集）	PNG	包括T91，Set15和Set14三个数据集的图像
291-images	291	合成数据集（训练集）	PNG，JPG	包括T91和BSD两个数据集的图像
General-100	100	合成数据集（训练集）	BMP	包括建筑纹理、动植物、人、食物、日用品等图像
MSCOCO	328 000	合成数据集（训练集）	JPG	包括91种易识别物体类型在自然环境中的复杂日常场景的图像
ImageNet	3200 000	合成数据集（训练集）	JPG	包括动植物、交通工具、家具、乐器、地质构造、工具等图像
DIV2K	1 000	合成数据集（800张训练集、100张验证集、100张测试集）	PNG	包括人、手工艺品、环境（城市、村庄）、动植物、自然风景等图像
Flickr2K	2650	合成数据集（训练集）	PNG	包括人、车、动植物、食物、建筑和风景等图像
DF2K	3450	合成数据集（训练集）	PNG	包括DIV2K和Flickr2K两个数据集的图像
DPED	5827	真实数据集（5614张训练集、113张验证集、100张测试集）	PNG	包括各种道路交通场景（建筑、植物、道路等）等图像
OutdoorScene(OST)	10624	合成数据集（10324张数据集、300张测试集，即OST300）	PNG	包括动物、建筑、草、山、植物、天空和水等7类纹理丰富的图像
DIV8K	1504	真实数据集（1304张训练集、100张验证集、100张测试集）	PNG	包括人、动物、建筑和风景等各种场景和物体的图像
RealSR	595	真实数据集（550张训练集、45张测试集）	PNG	包括建筑、风景、动植物、海报、物体等纹理丰富的室内外场景图像
DRealSR	88（x2）78（x3）84（x4）	真实数据集（对于尺度因子2，3，4分别用83，84，93张图像进行测试，其余用于训练）	PNG	包括广告海报、植物、办公室、建筑物、等室内外场景的图像
Set5	5	合成数据集（测试集）	PNG	包括婴儿、鸟、蝴蝶、头部和女士等5张图像
Set14	14	合成数据集（测试集）	PNG	包括动植物、风景（船和桥）、PPT和人等图像
Berkeley Segmentation Dataset(BSD)/BSD500	500	合成数据及（测试集）	PNG	包括动物、建筑、食物、风景、人和植物等图像，BSD100和BSD300分别是BSD500中常用的100或300张图片
Urban100	100	合成数据集（测试集）	PNG	包括不同类型的建筑图像
Manga109	109	合成数据集（测试集）	PNG	包括来自日本漫画书的图像
PIRM	200	合成数据集（100张验证集、100张测试集）	PNG	包括人、物、环境、植物、自然风景等图像
DIV2KRK	100	合成数据集（测试集）	PNG	包括对DIV2K验证集的100张图像进行更复杂退化操作的图像
DIV2K4D	400	合成数据集（测试集）	PNG	包括对100张DIV2K验证集采取四种退化的图像

人脸数据

FFHQ全称Flickr-Faces-High-Quality（Flickr-Faces-HQ），最初是作为生成式对抗网络(GAN)的基准创建的，也用于StyleGAN的训练数据集中，并由英伟达于2019年开源。FFHQ是一个高质量的人脸数据集，包含1024×1024分辨率的70000张PNG格式高清人脸图像，在年龄、种族和图像背景上丰富多样且差异明显，在人脸属性上也拥有非常多的变化，拥有不同的年龄、性别、种族、肤色、表情、脸型、发型、人脸姿态等，囊盖普通眼镜、太阳镜、帽子、发饰及围巾等多种人脸周边配件，因此该数据集也是可以用于开发一些人脸属性分类或者人脸语义分割模型的。FFHQ的图像从Flickr上爬取，且均有许可才会下载，并使用了dlib进行人脸对齐和裁剪，之后使用算法移除了一些非真实人脸如雕像、画作及照片等图像。github地址
虚拟人脸与真实人脸数据，包含了styleGAN以及styleGAN2生成的人脸数据，以及真实的动漫、明星，模特等高清人脸数据。

网络模型的基本框架

在这里插入图片描述
根据上采样层在网络模型中位置的不同，可将模型基本框架划分为4种类型：预上采样、后上采样、渐进式上采样、迭代式上下采样。

经典网络模型总结

LR图像获取方式：Bi⁃cubic表示双三次下采样，B表示模糊核，GB表示高斯模糊核，N表示噪声，GN表示高斯噪声，J表示JPEG压缩. 由于数据增强能够扩大数据容量，减少迭代次数，并在一定程度上提升网络性能，所以许多网络模型常通过随机翻转、旋转和缩放等操作对数据集进行数据增强.

网络名称–发表时间（类型）	网络框架（上采样方法）	训练集	LR图像获取方式	数据增强	测试集	损失函数	评价指标
ESRGAN–2018（基于GAN）	后上采样（最近邻插值）	DIV2K，Flickr2K，OST	Bicubic	翻转、旋转	Set5，Set14，BSD100，Urban100，PIRM	Lpercep，LGAN，L1	PSNR，PI
RealSR–2020（无监督式）	后上采样（最近邻插值）	①DF2K ②DPED	无监督式退化模型	——	①DF2K ②DPED	L1，Lpercep，LGAN	①PSNR，SSIM，LPIPS②MOR
SwinIR–2021（基于Transformer）	后上采样（亚像素卷积）	DIV2K，Flickr2K	①Bicubic②B+下采样+N	——	Set5，Set14，Urban100，BSD100，Manga109	①L1②L1，LGAN，Lpercep	PSNR，SSIM，Params，Mult-Adds
Real-ESRGAN–2021（基于GAN）	后上采样（最近邻插值）	DIV2K，Flickr2K，OST	Bicubic+B+N+J	——	RealSR，DRealSR，OST300，DPED，ADE20K	L1，Lpercep，LGAN	视觉效果
codeFormer（2022）	后上采样	FFHQ	——	——	——	多个阶段的损失函数	PSNR，SSIM，LPIPS
SAFMN（2023）	后上采样	DIV2K，Flickr2K	——	——	——	———	PSNR，SSIM
DAT（2023）	后上采样	DIV2K，Flickr2K	——	——	——	———	PSNR，SSIM
RGT（2024）	后上采样	DIV2K，Flickr2K	——	——	——	———	PSNR，SSIM