Flow-based Kernel Prior with Application to Blind Super-Resolution

Flow-based Kernel Prior with Application to Blind Super-Resolution

摘要

核估计通常是盲图像超分辨率(SR)的关键问题之一。
要解决的问题:DoubleDIP提出通过网络结构先验对核进行建模,KernelGAN提出采用深度线性网络和若干正则化损失来约束核空间。但,这些方法都没有充分利用一般的SR核假设,即各向异性高斯核足以用于图像SR。

针对以上问题,本文提出了一种基于归一化流的核先验(FKP)用于核建模。通过学习各向异性高斯核分布和可处理的潜在分布之间的可逆映射,FKP可以很容易地用于替换DoubleDIP和KernelGAN的核建模模块。
具体而言,FKP在潜在空间而不是网络参数空间中优化核,这使得它能够生成合理的核初始化,遍历学习的核流形,并提高优化稳定性。

大量实验表明,所提出的FKP能够以较少的参数、运行时间和内存使用,显著提高核估计精度,从而产生最先进的盲SR结果。

介绍

图像超分辨率(SR)是一项基本的低级别视觉任务,其目标是从低分辨率(LR)输入中恢复高分辨率(HR)图像。
随着卷积神经网络(CNN)的发展,基于CNN的方法在求解图像SR中越来越流行。然而,大多数现有的工作假设模糊核是固定和已知的(例如,双三次下采样核),即非盲SR,这往往会导致实际应用中的性能急剧下降。因此,以处理未知模糊核为目标的盲图像SR正成为一个活跃的研究课题。

与非盲SR相比,盲SR通常需要额外估计模糊核。一种普遍的方法是:将盲SR分解为两个子问题,即核估计和非盲SR。作为非盲SR的初步步骤,核估计起着至关重要的作用。如果估计的核偏离真实值,则非盲SR方法重建的HR图像将严重恶化[。鉴于此,本文重点研究了SR核估计问题。
最近的一些核估计方法,如 DoubleDIP和KernelGAN。

  • DoubleDIP:通过最小化LR图像的重建误差,在未经训练的编码器-解码器网络的参数空间中联合优化HR图像和模糊核。尽管DIP已被证明对自然图像建模有效,但对模糊核建模是否有效仍不清楚。主要原因是模糊核通常具有较小的空间大小,并且具有与自然图像不同的特性。有文献证明,全连接网络(FCN)用于对内核先验进行建模,但其缺乏可解释性。
  • KernelGAN采用了与双DIP不同的框架,其基于图像块的递归特性为LR图像设计了一个内部生成对抗网络(GAN)。通过深度线性网络隐式定义核,该网络通过GAN损失和五个额外的正则化损失(如稀疏性损失)进行优化。

存在的问题:这两种方法都已被证明对真实图像SR足够有效,但没有充分利用各向异性高斯核先验。

在本文中,我们提出了一种用于对核分布建模的基于流的核先验(FKP),并将其合并到现有的盲SR模型中。基于归一化流,FKP由若干批归一化层、置换层和仿射耦合层组成,这些层允许模型通过学习核空间和潜在空间(例如,高维高斯)之间的可逆映射来捕获核分布。并通过最小化核的负对数似然损失,以无监督的方式优化FKP。
将基于流的核先验(FKP)的核估计方法合并到现有的盲SR模型,如DoubleDIP和 KernelGAN,其中FKP固定其参数并优化网络输入空间中的潜在变量。

  • 对于DoubleDIP,通过最小化LR图像的重建误差,联合优化用于估计HR图像的DIP和用于核估计的FKP。
  • 对于KernelGAN,使用FKP估计核,而不是使用深度线性网络,然后通过对抗性训练对其进行优化。

使用FKP作为内核先验提供了几个优点:

  1. 参数更少。FKP模型仅具有143K参数,而DoubleDIP和KernelGAN分别涉及核建模的641K和151K。
  2. 2) 更稳定的收敛。一方面,与使用随机噪声输入的DoubleDIP和使用随机参数进行核初始化的KernelGAN不同,FKP可以显式初始化合理的内核,因为它是一个双射函数。另一方面,在模型优化过程中,核被隐式约束在学习的核流中。
  3. 得到更好的核。通过学习核先验,可以提高盲SR方法的核估计精度。

主要贡献总结如下:

  1. 我们提出了一种适用于任意模糊核模型的核先验FKP,它学习核和潜在变量之间的双射映射。而且,FKP是第一个基于学习的内核先验。
  2. 通过固定其参数和优化潜在变量,FKP遍历学习的核流并搜索核预测,确保用于初始化和沿优化的合理核。
  3. 使用较少的参数、运行时间和内存使用,FKP提高了现有核估计方法的稳定性和准确性,从而实现了最先进的盲SR性能。

相关工作

1. 核估计

在深度学习之前,传统的核估计方法通常利用图像块或边缘的先验信息。在深度学习时代,Gandelsman等人提出了基于深度图像先验(DIP)的双DIP,该方法使用未经训练的编码器-解码器网络和跳跃连接作为图像先验。类似地,Ren等人提出了一种完全连接网络(FCN)作为图像去卷积的核先验。但,由于盲SR的下采样,这种思想是否适用于盲SR核估计仍然是一个开放的问题。
与上述方法不同的是,Kligler等人提出了基于图像块的递归性质的KernelGAN估计核,该方法们使用深度线性网络作为生成器,从LR图像生成重缩放图像,并使用鉴别器确保跨度图像块相似性,其中模糊核是从生成器导出的。Gu等人提出了一种可预测正确的方法,通过交替估计核和HR图像。但它高度依赖于训练HR-LR图像对,估计核的特征。

2.标准化流

标准化流是可逆的生成模型,将复杂数据分布变形为简单且易于处理的分布。Dinh等人提出将非线性附加耦合和其他转换层叠加为流动模型NICE。受NICE的启发,Dinh等人又提出了RealNVP,它将加法耦合升级为仿射耦合,而不损失可逆性,并实现了更好的性能。之后,Kingma等人提出了1×1卷积来代替RealNVP中的固定排列层,并成功合成了逼真的图像。

基于核先验的流(FKP)

通常,图像SR的经典退化模型,假设LR图像y是通过从HR图像x进行模糊和下采样的合成获得的。从数学上讲,其公式为:
在这里插入图片描述
其中x⊗ k表示x和模糊核k之间的卷积,↓s表示具有比例因子为s的下采样操作,n表示噪声。特别地,一些盲SR方法旨在同时估计HR图像和模糊核。根据最大后验(MAP)框架,它可以表示:
在这里插入图片描述
其中||y− (x)⊗ k)↓s||^2是数据保真度项,Φ(x)表示图像先验,Ω(k) 表示核先验,λ和γ是权衡参数。研究表明,较差的核估计会导致HR图像估计的性能严重下降。然而,虽然已经提出了各种图像先验来描述自然图像统计,但很少关注核先验的设计。

本文旨在学习基于标准化流的核先验。k∈ K表示内核变量,zk∈ Z表示对应的潜在变量。k和zk分别服从pK和pZ的概率分布。我们定义了双射fθ(K→ Z)与参数θ。可以通过模糊核k映射得到潜在空间中的潜在变量zk=fθ(k)。相反,k也可以通过逆映射得到精确重构:k=f^(-1)θ(zk)。
根据变量公式[8]的变化,k的概率pK为:
在这里插入图片描述
∂fθ(k)/∂k是fθ在k处的雅可比矩阵(Jacobian)。通常,pZ是一个简单分布,如多元高斯分布。fθ通常由一系列可逆和可处理的变换组成:fθ=f 1θ◦ f2θ◦ · · · ◦ fNθ,其中hn=fnθ(hn−1),n∈ {1,…,N}。fθ的输入h0为k,输出hN为zk。在最大似然估计下,可以通过最小化负对数似然(NLL)损失来优化θ:
在这里插入图片描述
下图为基于流的内核先验(FKP)网络的示意图。FKP由几个可逆流动块组成,学习核k和潜在变量zk之间的可逆映射。每个流动块包括三个连续的层:批量归一化层、置换层和仿射变换层。对于仿射变换层,我们使用小型全连接神经网络(FCN)进行缩放和移位,其中每个FCN交替堆叠全连接层和tanh激活层。
在这里插入图片描述
FKP由给定训练核样本的NLL损失进行训练。当将其作为核先验合并到现有的核估计模型中时,首先需要随机采样潜在变量zk,其对应于图2所示的随机核。然后固定模型参数,并在核估计损失的指导下通过梯度反向传播更新zk。FKP不是从随机初始化开始并缓慢更新内核,而是在zk更新期间,沿着学习的核流移动并生成可靠的内核fθ^(-1)(zk)。此外,当zk遵循多元高斯分布时,大部分的质量分布在半径为√D的球面附近,其中D是zk的维数。因此,在每次更新后限制zk的欧几里得范数为||zk||2 =√D来优化球面上的zk,而避免在整个潜在空间中进行优化。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值