【Deep Semantic Face Deblurring】阅读笔记

1. Contribution

  • 提出了一种深度多尺度CNN,利用全局语义先验和局部结构约束进行人脸图像去模糊(以往的人脸去模糊方法需要相似的参考图像,手动注释人脸轮廓,这里首次采用了人脸特征作为语义信息)
  • 提出了一种增量策略来训练CNN以更好地处理未知的运动模糊核

1.1 Global semantic priors

以往的人脸去模糊需要相似的参考图像,然后手动注释人脸轮廓。本文一大特点就是融入了人脸特征作为语义信息,作为全局的语义先验。

从辨识人脸身份的角度上说,人们正是通过一些面部的特征来区分一个人的身份的,这些特征就主要集中于五官等面部器官上。从这个角度上讲,对这些特征集中的区域恢复得好的话,整体上去模糊效果应该也不会差。

这一点的设计,首先是充分考虑了任务的需要,简化了问题,但就对人脸去模糊这一问题来说,应该不难想到,应该是首次提出了这种做法。

类似的做法在之前的学习中也又遇到过,通过一个神经网络来学习一个先验,是判断一张图片模糊与否。

1.1.2 Face parsing network

据原文称是采用的 C V P R 2015 CVPR2015 CVPR2015
【Multi-objective convolutional learning for face labeling】。

经过求证后发现,在提出的这篇文章中的网络架构和本文该部分网络架构是不同的。原文中是先卷积层再全连接层,而本文给出的架构是一个类似 U − n e t U-net Unet的架构。

从任务目标角度上讲,这部分任务是要训练一个网络,使得其能够对一张模糊图片中人脸的五官进行定位,将所属像素进行分割,和分割任务极像。从这个角度上讲,采用 U − n e t U-net Unet结构也无可厚非

1.2 Face deblurring network

这部分工作是去模糊网络的主体,本文称这部分网络借鉴 C V P R 2017 CVPR2017 CVPR2017【Deep multi-scaleconvolutional neural network for dynamic scene deblurring】

在提出的这篇论文中进行部分修改,将原来的3尺度输入改为2尺度输入,使用更少的ResBlock(从19减少到6),尺寸更大卷积核(11*11)

这部分的一个改动是对 R e s B l o c k ResBlock ResBlock进行变体,去掉了 B N BN BN

这种去模糊的方式采用了高斯金字塔式的输入。所谓的双尺度,第一尺度就是在分辨率为 64 ∗ 64 64*64 6464及其通过语义分析网络的概率图,将其堆叠起来作为输入(事实上原图分辨率应该为 128 ∗ 128 128*128 128128,由于高斯金字塔式的输入,前几级分辨率成倍减小)

第二尺度就是在第一尺度的输出经过上采样后变为大小 128 ∗ 128 128*128 128128后,联合原图 128 ∗ 128 128*128 128128以及二者响应的通过语义分析网络的输出概率图进行堆叠,作为第二尺度的输入。

2 Loss

本文 L o s s Loss Loss由四个部分组成

2.1 content loss

这部分损失直接就是恢复的图片与清晰图片之间的距离,这里采用的是 L 1 L1 L1距离

2.2 structural loss

这部分损失的设置就是有意地引导去模糊网络专注于对人脸的关键部分进行去模糊。其具体实现方法就是,通过语义分析网络可以得到人脸不同特征的概率图,这作为一个掩码和原图 e l e m e n t − w i s e element-wise elementwise就得到了响应关键点的损失。这种做法类似于注意力机制

2.3 Perceptual loss

使用预训练的 V G G VGG VGG网络得到中间特征结果之间的距离作为损失。

2.4 Adversarial loss

将去模糊网络视为一个生成器,按照 D C G A N DCGAN DCGAN的框架构建鉴别器,由于我们的目的就是要生成清晰图片,因此只要最好得到一个性能良好的生成器即可,因此只需要更新生成器网络部分,即仅需要生成器部分的损失。

Incremental training

Problem

现实世界中模糊的图像很可能是由大量不同的摄像机运动形成的。在为了在野外处理随机模糊内核,一个简单的策略是合成大量的模糊核和模糊图像训练。然而,训练起来很困难一个从头开始使用所有模糊图像的深度网络.同时,网络必须学会N对1映射。其中N为模糊核数。网络可能收敛到一个糟糕的局部最小值,不能恢复图像特别是对于大的模糊内核。

To solve

为了解决这个问题,我们提出了一种简单而有效的增量训练策略,在训练过程中依次加入更多模糊核。我们先训练网络在较小的模糊核上(即13×13)。然后,我们通过增加模糊核的大小逐渐扩展训练集。具体来说,在引入新的模糊核之前,我们训练网络进行K次迭代。在合并新的模糊核时,我们仍然对现有的模糊核进行采样以进行训练,直到包括所有模糊核。在我们的实验中,我们设置K=30000次迭代,并训练网络进行总计1700万次迭代。

Experiment

Dataset

人脸语义分析网络

Helen dataset
【Interactive facial feature localization】 ECCV 2012
由2000张训练图像和330张验证图像组成
评价指标
F − s c o r e F-score Fscore
该指标是分类模型的常用评估方法,该任务更像是一个语义分割任务,但是语义分割本质也是分类任务
相关方法
本文只是定量描述了该方法对面部各个器官的 F − s c o r e F-score Fscore进行描述,没有对比

去模糊网络

Helen dataset(2000 images)
【Interactive facial feature localization】 ECCV 2012
CMU PIE dataset (2,164 images)
【 The cmupose, illumination,and expression (pie) database】
In IEEE International Conference on Automatic Face and Gesture Recognition,2002.
CelebA dataset (2,300images)
【Deep learning face attributes in the wild】 ICCV 2015
共1.3亿张图片
从随机3D摄像轨迹生成了20000个模糊核,尺寸在13X13到27X27之间,用与训练
在测试时又生成另外80个随机模糊核进行测试
评价指标

  • P S N R PSNR PSNR
  • S S I M SSIM SSIM
  • 处理时间
  • 人脸身份识别(准确率&gt和restore间距离)

相关方法
基于 M A P MAP MAP的方法
【Fast motion deblurring】 ACM TOG (Proceedings of SIGGRAPH Asia), 28(5):145:1–145:8, 2009.
【Blind deconvolution using a normalized sparsity measure】CVPR 2011
【High-quality motion deblurring from a single image】ACM TOG (Proceedings of SIGGRAPH), 27(3):73:1–73:10, 2008
【Unnatural L0 sparse representa tion for natural image deblurring】In CVPR, 2013.
【Handling noise in single image deblurring using directional filters】 In CVPR, 2013.

face deblurring method
Deblurring face images
with exemplars. In ECCV, 2014.
基于CNN的方法
【Deep multi-scale convolutional neural network for dynamic scene deblurring】 In CVPR, 2017

不足

当输入人脸图像不能很好地对齐时,本文方法可能会失败,例如,侧面或非常大的运动模糊。未来的工作包括改进处理大的和不均匀的模糊核的性能,并减轻面部对齐的要求。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值