(SFT-GAN)18:Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform

基于深度空间特征变换的图像超分辨率真实纹理恢复

Project Website:Recovering Realistic Texture in Image Super-resolution by Deep Spatial Feature Transform

摘要

卷积神经网络在SISR恢复自然和真实纹理方面仍是一个具有挑战性的问题。

本文证明了恢复忠实于语义类的纹理是可能的。特别是,只需要根据语义分割概率映射调整单个网络中几个中间层的特征。这是通过一个新的空间特征变换(SFT)层实现的,该层为空间特征调制生成仿射变换参数。SFT层可以使用相同的损耗函数与SR网络一起进行端到端的训练。

一、介绍

分类先验(categorical prior)是图像中某个区域(例如天空、建筑物、植物)语义类的特征,对于限制SR中的合理解空间至关重要。

具体地说,使用两个不同的CNN模型来恢复模糊的植物和建筑对,每个模型都经过植物数据集和建筑数据集的专门训练。

  •  通过选择正确的类专用模型,可以更好地生成忠实于固有类的真实纹理

作者希望研究class-conditional图像超分辨率与CNN,这一问题具有挑战性,尤其是当不同类别和大小的多个片段在单个图像中共存时。通过使用语义分割映射作为分类先验,来获得分类先验并将其进一步纳入重建过程。

有了令人满意的LR图像的语义分割。剩下就是找到一个公式,允许在基于分割映射的SR网络中生成因式分解纹理。

为每个语义类都训练一个SR模型不太可能,而且将LR图像与分割映射作为输入相结合,或将分割映射与中间深度特征相结合,又无法有效利用分割。因此,本文提出了一种称为空间特征变换(SFT)的新方法,该方法能够通过变换网络某些中间层的特征来改变SR网络的行为。

具体地说,SFT层以语义分割概率映射为条件,基于语义分割概率映射生成一对调制参数,以便在空间上对网络的特征图应用仿射变换。

SFT的优点:

(1)参数效率高。通过变换单个网络的中间特征,只需一次前向传递,即可重建具有丰富语义区域的HR图像。

(2)SFT层可以很容易地引入到现有SR网络结构中。这些层可以使用传统的损耗函数与SR网络一起进行端到端的训练。

(3)是可扩展的。

首先,我们使用语义映射来指导SR领域中不同区域的纹理恢复。其次,我们利用概率图来捕捉精细的纹理差别,而不是简单的图像分割。

引入知觉损失[21,3]和对抗性损失[27,38]来解决通常由传统的面向MSE的损失函数引起的均值回归问题。

二、方法

模型映射函数:

 x是LR image,\widehat{y}是重建的HR image,\theta是要学习的参数。

最小化损失函数来优化\theta

 分类先验ψ语义用分割概率映射P表示:

 P_k是第K个类别的概率图,K是类别的总数。

将分类先验引入到SR中,重新构造公式(1),得到:

 Ψ定义了映射函数G可以依赖的先验条件。

2.1 空间特征变换(SFT)

SFT层根据先验条件Ψ学习一个输出调制参数对(γ,β)的映射函数M。学习的参数对通过对SR网络中的每个中间特征映射进行空间仿射变换,自适应地影响输出。 

因此,由(4)可以得到:

 从条件中获得(γ,β)后,通过对特定层的特征图进行缩放和移动进行变换:

 F为特征映射,其维数与γ和β相同。由于保留了空间维度,SFT层不仅执行特征操作,还执行空间转换。

 映射函数M可以是任意函数,使用神经网络对M进行优化,使其可以与SR分支端到端进行优化。为了进一步在多个SFT层之间共享参数以提高效率,使用一个小condition network来生成共享的中间条件,这些中间条件可以广播到所有SFT层。

 

 所有SFT层共享一个condition network。condition network的作用是从先前的条件产生中间条件,并广播条件到所有SFT层,以进一步产生调制参数。

 分割概率映射

由分割网络得到:首先使用双三次插值将LR图像上采样到所需的HR大小。然后将其作为输入馈入分割网络。在COCO数据集上对网络进行预训练,然后在ADE数据集上使用其他动物和山脉图像进行微调。将分割网络与主SR网络分开进行训练。

从LR图像获得的分割图的准确性

将HR images以×4的比例因子下采样得到LR,比较它们的分割结果:

  •  LR分割接近HR分割

 在测试期间,不属于预定义的K个分割类的类将被归类为“背景”类。在这种情况下,本文方法仍会生成一组默认的γ和β,退化为SRGAN,平等对待所有类别。

用其他方法将分类先验引入SR网络

①将分割概率映射与输入LR图像连接起来,作为网络的联合输入,相当于在输入层添加SFT条件偏差。简单的输入连接不足以为特定类的纹理生成施加必要的条件,这种方法在改变CNN的行为方面是无效的。

②直接将概率映射与SR分支中的特征图连接起来,类似于多纹理合成网络。这种方法虽然不如SFT的参数效率高,但相当于简单地为特征方面的条件偏差添加一个后层。

③更为暴力的方法是首先根据预测的语义类分解LR图像,并使用专门为该类训练的模型分别处理每个区域。这些模型可以共享特征以节省计算。最终输出是通过组合每个模型类的输出生成的。但是计算效率很低,因为需要对单个输入图像使用多个CNN模型执行前向传递。

2.2 架构

框架基于对抗式学习,由一个生成器G_\theta和一个判别器D_\eta组成,分别由θ和η参数化。联合训练,优化目标如下:

 p_{HR}p_{LR}分别是HR和LR训练样本的经验分布

对优化目标的理解

 G_{\theta }的结构如图3所示。它由两个流组成:一个condition network和一个SR网络。

①condition network以分割概率映射作为输入,通过四个卷积层对其进行处理。它生成所有SFT层共享的中间条件。为了避免一幅图像中不同分类区域的干扰,对所有卷积层使用1×1的核来限制condition network的感受野。

②SR网络由16个残差块和SFT层组成,这些残差块以共享条件为输入,通过仿射变换学习(γ,β)来调制特征映射。skip connection用于简化深度CNN的训练。使用最近邻上采样和卷积层对特征进行上采样。

对于判别器D_\eta,采用一个跨步卷积的VGG网络,以逐渐减小空间维数。判别器不仅能区分输入是真还是假,还能预测输入属于哪一类。这是可能的,因为我们的训练图像被裁剪成只包含一个类别。这种策略有助于生成具有更真实纹理的图像。在测试阶段去除判别器。

2.3 损失函数

在本文模型中用perceptual loss(感知损失)和adversarial loss(对抗损失),感知损失度量特征空间中的距离。为了获得特征图,使用预训练的19层VGG网络,表示为\phi,感知损失如下:

使用第五个最大池化层之前的第四次卷积获得的特征映射,并计算其特征激活时的MSE。

 对抗性损失如下:

对优化目标和损失函数的个人理解

 三、实验

对于训练图像,裁剪每个图使其只存在一个类别;测试图像不经过预处理。

3.1质量评估

  • SRGAN和EnhanceNet在很大程度上改善了高频细节,但往往会产生单调和不自然的纹理,如Fig. 5中的水波。
  • 本文的方法采用分类先验来帮助捕捉每个类别的特征,产生更自然和真实的纹理。

 3.2 用户研究

1、讨论面向PSNR的方法

 

  • SFT-GAN的性能大大优于面向PSNR的方法。因为面向PSNR的方法总是产生模糊的结果,尤其是在纹理区域。 

 2、讨论基于GAN的方法

  •  本文方法排名高于SRGAN和EnhanceNet,尤其是在建筑、动物和草地类别中。

3.3 Ablation Study

从分割概率映射到特征调制参数。本文方法基于分割概率映射调整中间特征。现在研究概率和特征调制参数之间的关系,

C_i代表第一个SFT层的第i个通道。最上面一行展示了一幅建筑物和草地共存的图像。观察到不同类别区域的调制参数γ和β不同,以产生有意义的空间方向变换。 

有些种类,如植物和草,它们相互交错,没有明确的界限。尽管存在歧义,概率映射仍能在一定程度上捕捉语义,SFT层在其空间变换中反映类别之间的细微差异。

上一行显示了植物激活的概率映射和调制参数,而下一行显示了草激活的概率映射和调制参数。可以观察到具有平滑过渡的明显激活。因此,SFT-GAN生成的纹理变得更加逼真。 

 对类别外示例的鲁棒性。本文模型主要关注室外场景,在给定预定义K类的分割图的情况下是有效的,但它对其他无法获得分割结果的场景也具有鲁棒性。

 当面对其他场景或缺少分割概率映射时,SFT-GAN模型将自身退化为SRGAN。

四、总结

使用语义分割图作为分类先验来约束SR中的合理解空间;

提出了一种新的空间特征变换(SFT)层,以有效地将分类条件合并到基于CNN的SR网络中;

局限性:本文方法重点是户外场景的SR,尽管对类别外的图像具有鲁棒性,但它并不考虑更精细类别的先验,特别是对于室内场景,如家具、电器和丝绸。在这种情况下,它对LR图像的分割任务提出了挑战性的要求。

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值