ATMFN: Adaptive-Threshold-Based Multi-Model Fusion Network for Compressed Face Hallucination 2020 TMM
题目:一种基于自适应阈值的压缩人脸幻觉多模型融合网络ATMFN
1、引言
主要内容
虽然最近在人脸超分方面取得了巨大的进展,但现有的基于单一深度学习框架的方法很难从复杂退化的微小人脸中提供令人满意的精细面部特征。本文提出了一种基于自适应阈值的多模型融合网络(ATMFN)用于人脸超分,将不同的深度学习模型结合起来,发挥各自的学习优势。首先,我们构造了基于CNN、GAN和RNN的底层超级分解器来产生候选SR结果。在此基础上,提出了注意子网络来学习获取候选SR人脸信息最丰富的各个融合权重矩阵。具体地说,融合矩阵和底层网络的超参数以端到端的方式一起优化,以驱动它们进行协作学习。最后,采用基于阈值的融合和重建模块,利用候选图像的互补性,生成高质量的人脸图像。在基准人脸数据集和真实世界样本上的大量实验表明,我们的模型在量化指标和视觉效果方面都优于最先进的SR方法。
本文贡献
1、首次提出了基于集成学习的SR框架,将CNN、GAN和RNN相结合,使我们能够充分利用不同底层深度学习模型的各自优势。提出的超分辨率框架可以提供精细逼真的纹理细节,但通过利用与特定图像分量相对应的候选超解析器的互补学习优势,消除了人为伪影。
2、设计了基于自适应阈值的融合子网,利用注意策略学习融合矩阵,充分利用候选超级解析器的最大信息量,达到合理融合的目的。具体地说,融合矩阵与底层网络的超参数一起以端到端的方式进行优化,从而在精度和收敛性方面给出最优权重。
背景:基于单一深度学习框架的方法很难从复杂退化的微小人脸中提供令人满意的精细面部特征,在复杂情况下不适用;
方法:基于自适应阈值的多模型融合网络(ATMFN),该网络融合了不同的深度学习模型,发挥各自的学习优势;
结论:模型在量化指标和视觉效果方面都优于最先进的SR方法。
2、网络结构
提出的基于自适应阈值的多模型融合网络(ATMFN),这是一个如图1所示的集成学习框架。
图1 一种基于自适应阈值的多模型融合网络(ATMFN)。红色方框中的组件表示具有不同深度学习模型的集成超分辨率。绿色方框由多个注意子网络组成。“C”和⊗分别表示连接和乘法。
与以往的学习单一统计模型参数或期望HR图像的先验知识的方法不同,ATMFN采用多个候选深度学习网络(CNN、GAN和RNN)来发挥集成学习的优势。特别地,该网络可以粗略地分为三个部分:候选生成、集成权重学习和基于自适应阈值的融合和重构。第一部分由底层的超级解析器产生多个初步SR结果,作为集合候选。在第二部分中,我们利用注意力机制来学习特定的权重矩阵,以引导网络将注意力集中在每个候选超分辨率人脸图像的关注区域上。第三部分通过对SR候选图像施加矩阵,得到集合分量,然后在基于阈值的融合与重构模块中进行集成,生成集合SR人脸图像。在第三部分中,我们将这些集合分量应用到SR候选集合上,然后将它们集成到基于阈值的融合与重构模块中,从而生成集合SR人脸图像。为了估计和学习最优集成矩阵,我们提出的TMFN方法特别考虑了注意重点和集成分量,并将它们重构为基于自适应阈值的多模型融合网络。
CNN
图2 基于CNN的超级解析器的结构。
GAN
图3 基于GAN的超级解析器的结构。
RNN
图4 基于RNN的超级解析器的结构。
图5 提出的基于自适应阈值的融合和重建模块。
3、损失函数
构造了一个稳健的损失函数来强制这些组件超分辨率fi生成N个类似于IHR的候选SR人脸,使用以下模型:
为了学习最优融合权值对于集合超级解析器,网络受以下目标的约束:
我们通过端到端的方式同时监督候选SR人脸yi和累积的SR图像ISR来优化融合矩阵。因此,新的目标函数被重新表示为
4、实验结果
消融实验
超级分解器组合方式的消融研究。
与最先进方法的比较
CelebA的重构结果的比例为8,质量比为30。我们选择了几个不同但代表性的样本进行演示
Helen的重构结果的比例为8,质量比为30。
真实世界人脸