图像模糊是影响图像质量的重要因素,显着降低了许多计算机视觉应用的性能,例如物体检测和人脸识别。随着深度神经网络的发展,计算机视觉领域的难题被一个个解决,单纯依靠先验核去实现图像去模糊的技术已经渐渐被取代。
本文将针对 CVPR2019 Unsupervised Domain-Specific Deblurring via Disentangled Representations 一文进行分析,梳理一下基于深度神经网络下图像去模糊的实现方法。
作者丨武广
学校丨合肥工业大学硕士生
研究方向丨图像生成
论文引入
图像的模糊严重影响图像的本身质量,同时在进行图像的识别和图像中物体识别都会产生影响。图像去模糊旨在从相应的模糊图像中恢复潜在的清晰图像。
大多数传统方法将图像去模糊任务公式化为模糊核估计问题,在过去的十年中,已经开发了各种自然图像和先验核来规范潜在锐利图像的解空间,包括重尾梯度先验,稀疏核先验,梯度先验,归一化稀疏性和暗通道。
然而,这些先验是通过有限的观察来估计的,并且不够准确。结果,去模糊的图像通常欠去模糊(图像仍然模糊)或过度去模糊(图像包含许多伪像)。
近年来深度神经网络和 GAN 的巨大成功,已经提出了一些基于 CNN 的方法用于图像去模糊,例如 Nimisha 在 ECCV 2018 发表的 Unsupervised Class-Specific Deblurring [1] 是一种基于 GAN 的无监督图像去模糊方法,在模型上增加了重复损失和多尺度梯度损失。虽然它们在合成数据集上取得了良好的性能,但它们对一些真实模糊图像的结果并不令人满意。
另一类方法是基于现有的图像到图像的模型,例如 CycleGAN [2] 这类无监督端到端的模型,然而,这些通用方法通常编码其他因素(例如:颜色、纹理)而不是将信息模糊到发生器中,因此不会产生良好的去模糊图像。
文章对这些方法进行了一个可视化结果比对,同时也是展示了自己模型的优越性:
上图最右侧就是这篇文章的实验效果,可以看出对比已有的基于深度神经网络的去模糊模型还是展示了不错的实现效果的。这些效果的实现得益于文章提出了一种基于解缠表示的无监督域特定图像去模糊方法,通过将模糊图像中的内容和模糊特征解开,以将模糊信息准确地编码到去模糊框架中。
我们后续再详细分析,这里总结一下文章的创新和优势所在:
内容编码器和模糊编码器将模糊图像的内容和模糊特征区分开,实现了高质量的图像去模糊;
对模糊编码器添加 KL 散度损失以阻止模糊特征对内容信息进行编码;
为了保留原始图像的内容结构,在框架中添加了模糊图像构造和循环一致性损失,同时添加的感知损失有助于模糊图像去除不切实际的伪像。
模型详解
我们还是先通过模型框架图去理解文章设计的思路:
我们先把模型中的组间介绍清楚,由于模型的循环一致性设计,网络的左右是基本对称的,我们对左侧组间交代下。s 代表清晰的真实图像,b 代表模糊的真实图像,是清晰图像的内容编码器(可以理解为图像颜色、纹理、像素的编码器),对应的是模糊图像的内容编码器,