主要关注SR task网络的视觉loss,不再赘述网络结构。
SR的目标不仅仅是重建的图像的PSNR/SSIM等指标高,更需要达到较好的视觉效果,而人类视觉主要关注图像的细节、边缘等。而如果单纯只用pixel-level的loss对网络进行约束,会导致over smoothing等问题。如图1,(Learning to Maintain Natural Image Statistics论文中fig 3)。而有研究表明,通过基于预训练网络提取的高级特征,定义和优化感知损失函数,可以生成高质量图像。
input reconstruction with l2 loss
GT
图1
- Perceptual Losses for Real-Time Style Transfer and Super-Resolution(CVPR 2016)
该论文针对的是图像转换问题,即通过网络将input转换到output。其中网络结构参考论文 Unsupervised representation learning with deep convolutional generative adversarial networks,不再赘述。
loss方面,如图2。该论文提出了使用一个预先训练的网络φ来定义loss function,而image transform net的目的是最小化式1。
图2
该论文定义了两种损失函数分别来衡量output图像和GT图像之间的高层视觉和语义差异。网络φ定义为imagenet图像集中预训练的16层VGG网络。
设j为φ的第j层卷积层, Φ j ( x , y ) \varPhi_j(x,y) Φj(x,y)是一个尺寸为 C j × H j × W j C_j \times H_j \times W_j