论文名称: EnhanceNet: Single Image Super-Resolution Through Automated Texture Synthesis
归类: ICCV2017, 作者: Sajjadi, Mehdi~S.~M. 等
一、难点(看论文时遇到的问题):
- E/P/T/A 是怎样进行结合的? 相加还是如何?
(E: MSE, P: Perceptual similarity, T: Texture matching, A: Adversarial Training) - T/A的具体执行过程?
二、问题:
- 传统的方法基于pixel-wise reconstruction measures, 如PSNR, 该衡量方法生成的图像与我们视觉感知不符。
(即,即便在衡量标准下得到的“分数”很高,认为生成的图像很好,但我们看上去却有over-smoothed的感觉,丢失了一定的high-frequency信息)
三、改进方案:
- 在损失函数上做文章,以 creating realistic texture。(如题目所言,Through Automated Texture Synthesis
- 在performance evaluation上,用Object recongnition performance来替代传统的PSNR, SSIM等标准。
四、具体方法:
4.1 Network Arthitecture
–
作者对该网络结构的几个地方做了特别说明:
(1). 网络的主体部分使用了residual blocks。原因是,相比于stacked convolution layers, 其收敛速度更快。
Reference: 残差的提出【2】, 残差首次用于SR【3】
(2). 作者探讨了为什么会选择nearest neighbor upsampling.
A. Bicubic interpolation introduces redundancies to the input image and leads to higher computational cost.
B. Convolution transpose layers (which unsample the feature activations inside the network) would produce checkerboard artifacts in the output. (棋盘格效应), 需要通过额外的regularization term来修正。增加了计算量。
C. 可以用NN upsampling + Conv 来替代Transposed convolutional layers. 在某些特定的模型下依然会产生棋盘格效应,但在大多数complex models里面都不需要额外添加正则化项。
Reference:Bicubic interpolation的使用【4】,Convolution transpose layers的使用【5】 Nearest neighbor upsampling【6】
(3). 输入的是低分辨率的图,输出的是残差图像。作用: It does not need to learn the identity functioin forILR.
4.2 Training and loss functions: (重点部分)
Pixel-wise loss in the image-space 传统的基于MSE的方法
Perceptual loss in feature space 把最后生成的图像映射到某一特征空间,再做MSE
Texture matching loss 映射到某一特徵空间还不够,再进行精细的纹理匹配,
Adversarial training 在特定的Descriminative model下,使得生成的图像无法被识别为是生成的
(1):传统的基于MSE的loss function:
(2):Perceptual similarity measure:*
Both Iest and IHR are first mapped into a feature space by a differentiable function ϕ before computing their distance.