RestoreFormer
Fully-spatial attentions to model contextual information
Model
(a) MHSA-multi-head self-attention, q k v 都是来自degraded Zd
(b) MHCA-multi-head cross-attention, 在空间上融合了degraded Zd和和其对应高分辨先验Zp
© RestoreFormer pipeline,
- Encoder Ed从低分辨图Id中提取特征Zd
- 从HQ Dictionary中获取最近的高分辨先验Zp
- 利用两个MHCA来融合低分辨率特征Zd和高分辨率先验Zp
- Decoder Dd被用来从融合的特征Zf’来重建高分辨率的face Id
HQ Dictionary
一个面部的高质量字典,在面部重建过程中,提供更丰富的面部细节,比如眼睛和嘴巴。
Learning
-
Total Loss
-
Pixel-level losses : L1 loss and perceptual loss
Ih is gt high-quality image, phi is the pretrained VGG-19 -
特征Loss
Encoder提取的特征Zd和获取的先验Zp
-
Component-level losses
在面部,包括嘴巴、眼睛,采用判别器损失和特征风格来进一步增强复原的质量
- r in {left eye, right eye, mouth}
- Rr(·)是ROI对齐,phi表示在区域r上训练的判别器Dr提取的多分辨特征;
- Gram denotes the Gram matrix, 计算特征相关性来衡量风格差异
- Image-level losses: adversarial loss + identity loss
aims high realness and fidelity
D是在面部数据集上训练的判别器,
n表示从一个已训练好的ArcFace模型上提取的id身份信息
Experiments
- FFHQ Dataset
- 在训练过程中合成degraged图像,构成HQ-LQ图像对,进行训练。
- 训练过程两步,先训练HQ,然后再继续训练RestoreFormer
1.HQ Dictionary
- iter < 6e5,lr =7e-5,
- iter > 6e5,lr = 7e-6
- iter > 8e5, HQ Dictionary 停止训练,获得参数Ed和Dd
- RestoreFormer
- 利用HQ中Ed和Dd初始化RestoreFormer中Ed和Dd
- 开始训练,lr = 7e-6, iter = 6e4