Deep Fourier Up-Sampling 阅读笔记

深度傅里叶上采样

NeurIPS 2022
论文链接
主页链接
代码链接

摘要: 现在的卷积神经网络广泛采用空间下/上采样进行多尺度建模,但空间上采样算子(例如,插值、转置卷积、up-pooling)严重依赖于 local pixel attention,无法探索全局相关性。根据频谱卷积理论,傅里叶上采样遵循全局建模特性。与使用局部相似性执行上采样的空间上采样不同,傅里叶上采样不遵循这种局部特性,因而更具挑战性。本研究提出了一个理论上合理的 Deep Fourier Up-Sampling (FourierUp) 来解决此问题。我们重新审视了空间域和傅里叶域间的关系,揭示了傅里叶域中不同分辨率特征的变换规则,这是 FourierUp 设计的关键。FourierUp作为一个通用算子,由三个关键部分构成:① 2D离散傅里叶变换、② 傅里叶增维规则、 ③ 2D逆傅里叶变换,可以直接与现有网络集成。多个计算机视觉任务(包括目标检测、图像分割、图像去训练、图像去阴影和引导图像超分辨率)上的广泛实验表明,引入FourierUp 能提升性能。


1 Introduction

空间下/上采样广泛用于卷积神经网络的多尺度建模,例如,U-Net 在 encoder 中使用池化层来降低特征分辨率,然后在decoder中使用上采样操作来恢复分辨率,特征金字塔和图像金字塔的多尺度神经网络依赖下/上采样操作实现多尺度建模。但空间上采样算子(例如,插值、转置卷积、up-pooling)严重依赖 local pixel attention,无法实现很多计算机视觉任务不可或缺的全局相关性。根据谱卷积定理,傅里叶域服从全局建模的性质,为多尺度建模提供了一种替代方案。但傅里叶域的上采样不遵循局部相似性,因而更具挑战性
最近的研究探索了空间和傅里叶域中的信息交互,例如 FFC 用一个 spatial-Fourier interaction 代替传统的卷积,该 spatial-Fourier interaction 的输入特征通道一部分执行传统卷积的空间(local)操作,一部分执行傅里叶域中的频谱(global)操作。DFT 设计了一个 Residual Fast Fourier Transform Block,通过常规的空间残差流和 channel-wise 傅里叶变换流间的交互来集成低频和高频残差信息。但上述方法仅在单分辨率尺度上相互作用,未研究傅里叶域中多尺度的 spatial-Fourier 交互的潜力。解决这一问题的关键在于如何实现用于多尺度傅里叶模式建模的深度傅里叶上采样。
Challenges. 由于空间域的局部相似性跨尺度位置不变性,空间上采样操作(包括转置卷积、up-pooling 和插值技术)能够使用像素邻域关系来插值局部的未知像素值,从而提高特征空间分辨率,如图1(a)所示。与空间域相比,傅里叶域不具有相同的尺度不变性和局部纹理相似性,因此无法使用与空间域相同的技术实现上采样,如图1(b)所示。
Solutions. 本文重新审视了空间域和傅里叶域间的关系,揭示了傅里叶域中不同分辨率特征的变换规则(见第3.1节和第3.2节),基于该规则,我们提出了理论上可行的深度傅里叶上采样(FourierUp),开发了FourierUp的三种变体:Periodic PaddingArea Interpolation/CroppingCorner Interpolation,如图1(c)所示。每个变体由三个关键组件构成:2D离散傅里叶变换、傅里叶增维规则和2D傅里叶逆变换,能与现有网络直接集成。我们相信 FourierUp 可以 refresh 仅在单尺度上进行空间和 Fourier 信息交互的神经网络的设计。

在这里插入图片描述

图1:Motivation:(a) 和 (b) 是在傅里叶域中使用任意上采样(例如插值)产生次优结果,因为傅里叶域不遵循与空间域中的局部相似性。这促使我们设计一种更巧妙的 “Fourier Up-Sampling” 算子:FourierUp,它有三种可选变体:Periodic Padding,Area Interpolation/Cropping 和 Corner Interpolation。

Contributions:1) 本文提出了一个新的深度傅里叶上采样方法,能在傅里叶域中集成不同分辨率的特征,首次彻底探索用于多尺度建模的傅里叶上采样。2) FourierUp 可以以即插即用的方式与现有网络直接集成。3) FourierUp 可以改进多个计算机视觉任务的性能。

2 Related Work

Spatial Up-Sampling. 空间下/上采样广泛用于卷积神经网络的多尺度建模,例如,U-Net 在 encoder 中使用池化层来降低特征分辨率,然后在decoder中使用上采样操作来恢复分辨率,特征金字塔和图像金字塔的多尺度神经网络依赖下/上采样操作实现多尺度建模。但空间上采样算子(例如,插值、转置卷积、up-pooling)严重依赖 local pixel attention,无法实现很多计算机视觉任务不可或缺的全局相关性。目前的研究很少探索频谱域上采样的潜力(例如,全局建模能力)。
Spatial-Fourier Interaction. 最近,一些研究尝试在深度模型中使用傅里叶变换,一些工作使用离散傅里叶变换将空间特征转移到傅里叶域,然后使用频率信息来提高特定任务的性能;另一些工作使用卷积理论来加速模型,例如快速傅里叶变换(FFT),FFC 用 spatial-Fourier interaction 代替卷积,[Spectral representations for convolutional neural networks] 提出用 spectral pooling 截断频谱域表示来降低特征分辨率。但这些技术仅在单空间分辨率下交互,没有在空间和频谱域中探索在多分辨率下交互的潜力。我们研究了空间域和傅里叶域间的关系,揭示了傅里叶域中不同分辨率特征的变换规则,这为多尺度傅里叶建模的设计提供了基础,对不同的网络架构具有通用性。

3 Deep Fourier Up-Sampling

本研究提出了三种 Fourier Up-Sampling:i) periodic padding of magnitude (振幅) and phase (相位), ii) area up-sampling of magnitude and phase; iii) corner interpolation of magnitude and phase。

定义

  • g ( x , y ) ∈ R M × N g(x, y)∈R^{M×N} g(x,y)RM×N:空间域 map;
  • f ( x , y ) ∈ R 2 M × 2 N f(x, y)∈R^{2M×2N} f(x,y)R2M×2N :g(x, y) 的2倍零插值上采样版本(2-times zero-inserted up-sampled);
  • F ( u , v ) ∈ R 2 M × 2 N F(u,v)∈R^{2M×2N} F(u,v)R2M×2N:f(x, y) 的傅里叶变换;
  • G ( u , v ) ∈ R M × N G(u, v)∈R^{M×N} G(u,v)RM×N:g(x,y) 的傅里叶变换;
  • H ( u , v ) ∈ R 2 M × 2 N H(u, v)∈R^{2M×2N} H(u,v)R2M×2N: G(u, v) 的 2倍面积插值上采样傅里叶变换( 2-times area-interpolation up-sampled Fourier transform);
  • h ( x , y ) ∈ R M × N h(x, y)∈R^{M×N} h(x,y)RM×N:H(u, v) 的逆傅里叶变换;

Theorem-1:

  • F ( u , v ) = F ( u + M , v ) = F ( u , v + N ) = F ( u + M , v + N ) F (u, v) = F (u + M, v) = F (u, v + N) = F (u + M, v + N) F(u,v)=F(u+M,v)=F(u,v+N)=F(u+M,v+N)
  • G ( u , v ) = F ( u , v ) 4 G(u, v) = \frac{F (u,v)}{4} G(u,v)=4F(u,v), where u = 0, 1, 2, . . . , N − 1 && v = 0, 1, 2, . . . , M − 1.
  • F(u, v) 正好是 G(u, v) 的周期性填充,G(u, v) 恰好是 F (u, v) 的四分之一,值衰减为 1/4.

Theorem-2:
在这里插入图片描述
Theorem-3:
假设 Fourier map: G ( u , v ) ∈ R M × N G(u, v)∈R^{M×N} G(u,v)RM×N 的 corner interpolated为: F G c o r ( u , v ) F^{cor}_G(u, v) FGcor(u,v),其逆傅里叶变换为: f G c o r ( u , v ) f^{cor}_G(u, v) fGcor(u,v)
在这里插入图片描述

3.1 定理1的证明:振幅和相位的周期性填充

注意, f ( x , y ) ∈ R 2 M × 2 N f(x, y)∈R^{2M×2N} f(x,y)R2M×2N g ( x , y ) ∈ R M × N g(x, y)∈R^{M×N} g(x,y)RM×N 的2倍上采样,g(x,y) 和 f(x,y) 间的关系可以写成:

在这里插入图片描述
然后,我们给出了 F ( u , v ) ∈ R 2 M × 2 N F(u,v)∈R^{2M×2N} F(u,v)R2M×2N 关于M 和 N的周期性,即: F ( u , v ) = F ( u + M , v ) = F ( u , v + N ) = F ( u + M , v + N ) F(u,v) = F (u + M, v) = F(u, v + N) = F (u + M, v + N) F(u,v)=F(u+M,v)=F(u,v+N)=F(u+M,v+N) with u = 0, 1, 2, . . . , N − 1 and v = 0, 1, 2, . . . , M − 1。
我们以 F (u, v) = F (u + M, v) 为例,recall Eq. (4) 为:
在这里插入图片描述
对任何整数 x, e − 2 π j x = 1 e^{−2πjx}=1 e2πjx=1。类似的,我们也能证明 F (u, v) 的周期性。基于上述证明,g(x, y) 的 DFT 能被阐述为:
在这里插入图片描述
修正 Eq. (4) 可得 G ( u , v ) = F ( u , v ) 4 G(u, v) = \frac{F (u,v)}{4} G(u,v)=4F(u,v)

3.2 定理2的证明:振幅和相位的面积插值

G(u, v) 的 2D Inverse Discrete Fourier transform (IDFT) 能被写作:
在这里插入图片描述
对 size 为 M×N的 G(u, v) 上采样得到 size 为 2M×2N的 H(u, v) ,具体而言,图3(b) 所示的面积插值被用作插值,然后插值像素与2×2局部区域中的原始像素相同。也就是说: H ( 2 u , 2 v ) = H ( 2 u + 1 , 2 v ) = H ( 2 u , 2 v + 1 ) = H ( 2 u + 1 , 2 v + 1 ) = G ( u , v ) H(2u, 2v) = H(2u + 1, 2v) = H(2u, 2v + 1) = H(2u + 1, 2v + 1) = G(u, v) H(2u,2v)=H(2u+1,2v)=H(2u,2v+1)=H(2u+1,2v+1)=G(u,v) with u = 0, 1, . . . , M − 1 && v = 0, 1, . . . , N − 1。类似Eq. (4),可以推断:
在这里插入图片描述
类似的,可以将 g(x,y) 写作:
在这里插入图片描述
变量 x 与变量 y 共享相同的操作。为简洁起见,仅以变量x的操作为例:在这里插入图片描述
我们证明了对于 x∈[0,M−1]和 y∈[0,N−1],|A(x,y)| 在 x 和 y 上的偏导数是负的。此外,我们有:
在这里插入图片描述
也就是说,如图4所示,intensity 从 side 降到中心。具体而言,intensity 在 x=M 或 y=N 的位置降到零。

3.3 Architectural Design

回顾 Theorem-1 和 Theorem-2,我们提出了两种深度傅里叶上采样变体:Periodic Padding 和 Area Interpolation-Cropping。
Periodic Padding Up-Sampling. 图2左侧为周期性填充上采样的伪代码,给定图像 X ∈ R H × W × C X∈R^{H×W×C} XRH×W×C,先采用傅里叶变换 FFT(X) 获得其振幅分量A和相位分量P,然后在H和W维度上对 A 和 P 执行两次周期性填充,如图3(a) 所示。然后将填充后的 A_pep 和 P_pep 喂给两个具有1×1 kernel 的独立卷积模块,最后进行傅里叶逆变换 iFFT(.) 将填充后的图像投影回空间域。
Area Interpolation-Cropping Up-Sampling. 图2右侧为 Area interpolation-Cropping 上采样的伪代码。如图3(b)所示,先通过具有相同像素的 2 × 2 area interpolation 对相位和振幅进行面积插值,然后使用傅里叶逆变换将插值后的图像投影回空间域,如第3.2节所述,逆空间表示是周期性的,而像素值是衰减的。当靠近中心的像素的衰减程度会增加。 为了更好地保持信息,在大小为 W 2 × H 2 \frac{W}{2}×\frac{H}{2} 2W×2H的四个角执行区域裁剪操作(如图1所示),然后在空间维度上将它们合并为一个整体,最后将它们调整为2H×2W大小。
在这里插入图片描述

图2:深度傅里叶上采样的两个变体的伪码。左边:periodic padding 变体。右边:area interpolation-cropping 变体。

在这里插入图片描述

图3:图2中(a)周期性填充和(b)区域插值的图示。每个小彩色正方形表示傅里叶域中振幅/相位分量的一个像素。

注意,尽管基于严格的理论设计,但构造的这两个频谱上采样模块都包含了一些近似值,如可学习的1×1卷积算子代替了 Theorem-1 中描述的严格的 1/4,和一个近似的 cropping 来展式 map corners 而非 Theorem-2 证明的准确的 A mapping。这种策略使所提出的模块易于实现且更灵活表示真实的数据频谱结构。这应该是构建简单合理的频谱上采样模块的首次尝试,希望它能从频谱角度启发更有效合理的模块。

4 Experiments

4.1 Experimental Settings

目标检测:PASCAL VOC 2007和2012 train set 用于训练,PASCAL VOC 2007 的 test set用于评估(VOC 2012 test set 的gt标注未公开)。采用了 FPN-based Faster RCNN with ResNet50 backbone 和 YOLO-v3 with Darknet53 作baseline。
图像分割:Synapse数据集和CANDI数据集作为医学图像分割测试。采用 U-Net 和 Att-UNet 作为基础模型。
图像去雨:选择 Rain200H 和 Rain200L 进行评估。采用 LPNet with up-sampling 和 PReNet without up-sampling 作为 baselines。
图像 Dehazing:使用RESIDE数据集进行评估,使用 AODNet without up-sampling operator 和 MSBDN with up-sampling operator 进行验证。
Guided Image Super-resolution:采用 Guided Image Super-resolution 代表性任务:pan-sharpening 进行评估。使用 WorldView II、WorldView III和GaoFen2 数据集。采用两种不同设计的网络: PANNET without up-sampling operator 和 DCFNET with up-sampling operator 进行验证 。
采用了几种广泛使用的图像质量评估(image quality assessment:IQA)指标来评估性能,包括 relative dimensionless global error in synthesis(ERGAS)、峰值信噪比(peak signal-to-noise ratio:PSNR)、spectral angle mapper(SAM)、DSC和HD95。

4.2 Implementation Details

上述 baseline 可分为两类:① 具有空间上采样(U-Net,Att-UNet,DCFNET,LPNet、MSBDN);② 不具有空间上采样(PReNet ,AODNet ,PANNET)。在无空间上采样的 baseline 上进行探索的目的是展示 FourierUp对不同网络结构的适用性。对于具有空间上采样的网络,直接用 FourierUp 替换 baseline 中的上采样操作即可,对于无空间上采样的网络,需要先引入一个下采样操作来降低特征分辨率,再 encapsulate FourierUp。图5和补充材料提供了 encapsulated FourierUp 和带有FourierUp的baseline的详细结构。

在这里插入图片描述

图5:在具有上采样的 baseline 中 FourierUp 的实现细节。

对于具有空间上采样的 baseline,比较了四种配置:

  1. Original:原始baseline;
  2. FourierUp-AreaUp:联合 FourierUp 的 Area-Interpolation 变体和空间上采样来替代原始模型的空间上采样;
  3. FourierUp-Padding:联合 FourierUp 的 Periodic-Padding 变体和空间上采样来替代原始模型的空间上采样;
  4. Spatial-Up:用空间上采样替换 2)/3) 配置中的FourierUp变体。为公平比较,使用与 2)/3) 数量相同的可训练参数。

对于没有空间上采样的 baseline,也比较四种配置:

  1. Original:原始baseline;
  2. FourierUp-AreaUp:用配备 Area-Interpolation 变体的 encapsulated FourierUp 替换原始模型的卷积;
  3. FourierUp-Padding:用配备 Periodic-Padding 变体的 encapsulated FourierUp 替换原始模型的卷积;
  4. Spatial-Up:用空间向上采样替换 2)/3) 配置的 encapsulated FourierUp。为公平比较,使用与 2)/3) 数量相同的可训练参数。

4.3 Comparison and Analysis

定量比较。 表1——表5。
在这里插入图片描述
在这里插入图片描述

定性比较。 图6,7。红色框圈出了我们方法明显的优势。

在这里插入图片描述

5 Limitations

  1. 首先,尚未对更广泛的计算机视觉任务(例如,图像去噪和图像去模糊)进行更全面的实验。
  2. 其次,深度傅里叶上采样与空间上采样相结合将增加模型参数量。性能提升显著的话,较少的参数增量可忽略不计。请注意,本工作的重点不仅仅是设计一个即插即用的模块来提高现有网络的性能,这项工作还为新网络的设计提供了更多可选的上采样操作。

6 Conclusion

本文提出了一种深度傅里叶上采样来探索傅里叶域上采样的可能性,为多尺度傅里叶模式建模提供了关键见解,并从理论上证明了傅里叶上采样设计的可行性。FourierUp可以直接与现有网络集成。大量实验验证了 FourierUp 的有效性。我们相信 FourierUp 能推广到更广泛的计算机视觉任务中,如image/video superresolution 和 image/video in-painting。

Broader Impact

本工作通过两种理论合理的深度傅里叶上采样设计,显示了计算机视觉算法在傅里叶域上采样的潜力。使用我们的深度傅里叶上采样(计算成本可忽略不计)能提高神经网络的性能,但当使用不当时也可能无效。我们将研究本方法在实际应用中的鲁棒性和有效性。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值