MTDN论文阅读笔记

题目:Hallucinating Unaligned Face Images by MultiscaleTransformative Discriminative Networks

中文:利用多尺度变换判别网络对未对准的人脸图像进行幻觉

在这里插入图片描述

摘要

-【常规方法依赖于对齐】 常规的面部幻觉方法主要依赖于低分辨率(LR)面部的精确对齐,然后再对其进行上采样。对齐错误通常会导致结果不足,并且对于较大的放大系数会产生不自然的伪影。然而,由于姿势范围的不同和面部表情的不同,对齐LRinput图像(尤其是在其很小时)非常困难。另外,当LR输入图像的分辨率变化时,以前的基于深度神经网络的面部超分辨方法要求输入面部图像的眼距与训练数据集中的相似。对LR输入面部进行下采样至所需分辨率将丢失原始输入图像的高频信息。对于最新的面部幻觉网络,这不是最好的超分辨率性能。为了克服这些挑战,我们提出了一种端对端多尺度可转换判别神经网络(MTDN),该网络旨在解决分辨率从16×16到32×32像素像素的不对齐和非常小的人脸图像。统一的框架。我们提出的网络嵌入了空间转换层,以允许局部接收场在类似的空间支持下排列,从而在LR和HR面部图案之间获得更好的映射。此外,我们加入了特定类别的损失,旨在通过一个连续的判别网络对目标中的直立现实面孔进行分类,以改善对齐方式和升采样性能。带有语义信息。在大型人脸数据集上的大量实验表明,该方法明显优于最新技术。

背景:常规方法依赖于对齐,未对齐会导致伪影。丢失高频信息
目的:解决分辨率从16×16到32×32像素像素的不对齐和非常小的人脸图像
方法:端对端多尺度可转换判别神经网络(MTDN),提出的网络嵌入了空间转换层,加入了特定类别的损失。
在这里插入图片描述
图1:我们的方法与基于CNN的超分辨率的比较(a)输入的24×24 LR图像。 (b)原始的128×128 HR图像。 (c)(a)的对齐的LR图像。由于STN0仅对所有图像输出固定的分辨率,因此对齐的LR图像的分辨率为16×16像素。 (d)训练集中(c)的最近邻居(NN)的对应HR版本。 (e)(c)的双三次插值。 (f)由基于CNN的通用超分辨率(即VDSR)生成的图像(Kim等,2016a)。我们使用面部图像对VDSR进行重新训练,以更好地捕获超分辨率的LR面部图像。(g)通过基于GAN的通用超分辨率方法即SRGAN上采样的图像(Ledig et al,2016)。在此,SR-GAN也可以在人脸图像上进行微调。 (h)通过最先进的幻觉方法即CBN超分辨的图像(Zhu等,2016a)。 (i)(a)的低频分量。 (j)(a)的高频成分。 (k)通过我们之前的方法(Yu and Porikli,2017b)进行过采样的人脸,该方法仅使用图像(i)作为输入。 (l)我们的MTDN的结果
在这里插入图片描述
图 2:我们的MTDN由两部分组成:上采样网络(红框)和判别网络(蓝框)。
在这里插入图片描述
图:3关于LR输入图像不同分辨率的结果插图。 (a)(d)真实的HR人脸图像。 (b)(e)未对准的LR脸部图像。从左到右,图像的分辨率为16×16、24×24和32×32。 (c)我们的结果(b)。从左到右,相应的PSNR为22.79 dB,23.59 dB和24.63 dB。 (f)我们的(e)结果。从左到右,相应的PSNR为17.80 dB,19.96 dB和21.94 dB
在这里插入图片描述
图 4:超分辨率的不同损耗的插图。 (a)输入的16×16 LR图像。 (b)原始的128×128 HR图像。 (c)对齐的LR图像。 (d)SRGAN对人脸进行过采样(Ledig et al,2016)。此处,SRGAN应用于对齐的LR面。由于SRGAN是针对通用图像补丁进行训练的,因此我们对全脸图像重新训练SRGAN。 (e)通过我们以前的方法超分辨的人脸图像(Yu and Porikli,2017b)。 (f)Lpix的超分辨面孔。 (g)Lpix + Lfeat的超分辨面孔。 (h)通过Lpix + Lfeat + LU获得的超分辨脸。在这里,为简单起见,我们忽略了权衡权重。

在这里插入图片描述

图5:与16×16像素大小的输入图像的最新技术比较。在首先对齐LR面然后对其进行超分辨的情况下获得了结果。 (a)未对齐的LR输入。 (b)对齐的LR面。 (c)三次三次插值。 (d)Kimet等人的方法(Kim等人,2016a)(VDSR)。 (e)Lediget等人的方法(Ledig等人,2016年)(SRGAN)。 (f)Maet al。的方法(Ma et al,2010)。 (g)Zhuet等人的方法(Zhu等人,2016a)(CBN)。 (h)Chenet等人的方法(Chen等人,2018)(FSRNet)。 (i)Yu和Porikli的方法(Yu and Porikli,2016)(URDGN)。 (j)Yu和Porikli的方法(Yu和Porikli,2017a)(TDN)。 (k)Yu和Porikli的方法(Yu和Porikli,2017b)(TDAE)。 (l)Yuet等人的方法(Yu等人,2018b)。 (m)Yuet等人的方法(Yu等人,2018a)。 (n)我们的方法(MTDN)。 (o)原始HR图像

结论

  • 我们提出了一种新颖且功能强大的多尺度变换判别网络,以超分辨非常小的LR人脸图像。通过设计两分支输入神经网络,我们的网络可以对LR图像的各种分辨率进行升采样,而不会丢弃调整后尺寸的输入图像的残差。以这种方式,我们的方法能够利用输入中的所有信息进行人脸超分辨率。此外,我们的算法可以显着增加输入LR图像的大小,例如8倍,并重建更丰富的面部细节。由于我们的方法不需要LR脸部的任何对齐并且可以学习LR和HR脸部图像之间的端到端映射,因此它可以很好地保留脸部的全局结构,因此更加实用。
已标记关键词 清除标记
相关推荐
【为什么还需要学习C++?】 你是否接触很多语言,但从来没有了解过编程语言的本质? 你是否想成为一名资深开发人员,想开发别人做不了的高性能程序? 你是否经常想要窥探大型企业级开发工程的思路,但苦于没有基础只能望洋兴叹?   那么C++就是你个人能力提升,职业之路进阶的不二之选。 【课程特色】 1.课程共19大章节,239课时内容,涵盖数据结构、函数、类、指针、标准库全部知识体系。 2.带你从知识与思想的层面从0构建C++知识框架,分析大型项目实践思路,为你打下坚实的基础。 3.李宁老师结合4大国外顶级C++著作的精华为大家推出的《征服C++11》课程。 【学完后我将达到什么水平?】 1.对C++的各个知识能够熟练配置、开发、部署; 2.吊打一切关于C++的笔试面试题; 3.面向物联网的“嵌入式”和面向大型化的“分布式”开发,掌握职业钥匙,把握行业先机。 【面向人群】 1.希望一站式快速入门的C++初学者; 2.希望快速学习 C++、掌握编程要义、修炼内功的开发者; 3.有志于挑战更高级的开发项目,成为资深开发的工程师。 【课程设计】 本课程包含3大模块 基础篇 本篇主要讲解c++的基础概念,包含数据类型、运算符等基本语法,数组、指针、字符串等基本词法,循环、函数、类等基本句法等。 进阶篇 本篇主要讲解编程中常用的一些技能,包含类的高级技术、类的继承、编译链接和命名空间等。 提升篇: 本篇可以帮助学员更加高效的进行c++开发,其中包含类型转换、文件操作、异常处理、代码重用等内容。
©️2020 CSDN 皮肤主题: 数字20 设计师:CSDN官方博客 返回首页