屏下图像改善，基于ESRGAN，Image Deblurring of Camera Under Display by Deep Learning阅读

本文链接：https://blog.csdn.net/weixin_43440726/article/details/112282686

1.论文来源：
SID International Symposium Digest of Technical Papers
下载地址：https://onlinelibrary.wiley.com/doi/epdf/10.1002/sdtp.14069
2.论文主要内容概述：
提出一种深度学习方法（ESRGAN基础上）来对有机发光二极管显示屏（OLED）拍摄的图像进行去模糊处理。

3.主要内容：
3.1 屏下相机CUD
显示器下摄像头(CUD)是一种新技术，可以实现真正的全屏显示。对于一般显示器，相机光圈区是透明玻璃，其透射率接近99%。但是对于CUD的情况，相机光圈区域具有显示元件，这将使透射率相当低，并产生非常强的衍射。所以需要针对这一情况进行图像改善。

3.2对深度学习网络ESRGAN进行改进
与需要超分辨率复原的低分辨率图像相比，CUD拍摄的图像尺寸相同，信息丢失较少。为了使应用于超分辨率的生成器G能够应用于图像去模糊并获得更好的性能，我们对ESRGAN的生成器G的基本结构做了两个改进:1)去除上采样层；2)减少不必要的中间层。
图1我们采用基本的SRResNet架构，去除了上采样层，其中大部分计算是在模糊图像特征空间中完成的。我们可以选择或设计“基本块”(例如，残差块、密集块、RRDB)，我们选择RRDB块以获得更好的性能。.
我们采用基本的SRResNet架构，去除了上采样层，其中大部分计算是在模糊图像特征空间中完成的。我们可以选择或设计“基本块”(例如，残差块、密集块、RRDB)，我们选择RRDB块以获得更好的性能。
图2.在本模型中的RRDB块
在本模型中的RRDB块

3.3改进后的loss
ESRGAN中原有loss为：
在这里插入图片描述
L1是评估恢复图像与真实图像之间的内容/像素损失，Lf是feature-map loss，La是adversarial loss。
本文中的loss为：

由于L1更能表达两幅图像细节上的差距，但更难收敛，本文进一步定义了两个参数α和β来控制训练过程中的损失比例。β=1-α，其中ni表示当前批次数量（从0开始），N表示批次总数。

3.4训练细节
与ESRGAN类似，使用监督学习训练网络，每次向网络输送清晰图像和模糊图像的小批量图像（像素高宽180180），小批量设置为6,。训练分为两个过程：①.使用L1作为损失函数训练生成器；学习率设置为10e-6。②.依次训练生成器和鉴别器，学习率10*e-5，优化器使用Adam，β1=0.9，β2=0.999。

3.5数据
采用同一设备在同一时空环境下分别拍摄屏下模糊图片与非屏下清晰图片，保持相机静止，尽量选择室内静止场景，尽量减少两图像之间时间差，满足时间要求。最终构建了一组7104对像素为180*180的图像用于训练与计算。

3.6结果与评估
在这里插入图片描述
本文使用Vollaths函数（传统图像评估方法）来评估图像质量，而未采用PSNR、SSIM来评估图像质量。这种方法基于：在清晰图像中，对于清晰边缘，相邻像素之间的相关性较低，而在模糊图像中，对于较为平滑的边缘，相关性较高。从公式中可以看出，计算结果反映了图像中所有相邻像素的相似性，从而反映了整体图像质量。最后一个公式用于表示相对于清晰图像的图像质量分数。
在这里插入图片描述