ICCV-2021:APR

幅度相位重组:重新思考频域卷积神经网络的鲁棒性

摘要

图像相位谱对于鲁棒视觉系统的重要性仍然被忽略。

在本文,注意到CNN倾向于收敛于局部最优,这与训练图像的高频成分密切相关,而幅度谱容易受到噪声或常见的腐蚀等干扰。相比之下,更多的实证研究发现,人类依赖更多的相位成分来实现鲁棒识别。这一观察结果进一步解释了CNN在对常见扰动分布外检测(OOD)的鲁棒性方面的泛化行为,激发了通过重新梳理当前图像的相位谱和干扰图像的幅值谱来设计数据增强的新视角。即生成的样本迫使CNN更多地关注来自相位分量的结构化信息,并对幅度变化保持鲁棒性。

什么是OOD?

一、介绍

在过去的几年里,深度学习在许多图像识别/分类任务上的表现甚至超过了人类的水平。但神经网络的非直觉泛化行为,仍然是困惑的。这也导致目前的深度学习模型依赖于训练数据的能力。

为了解释神经网络的泛化行为,一些研究从数据的角度研究了CNN在频域的泛化行为,并证明CNN受益于人类无法感知的高频图像成分

(1)图4的研究表明CNN的预测对幅度谱的变化更加敏感以上现象说明CNN趋向于收敛于局部最优,这与训练图像的高频分量密切相关。虽然当测试样本和训练样本来自相同的分布时,这是有帮助的,但由于幅度谱容易受到噪声或常见的corruption等干扰,CNN的鲁棒性会受到影响。

(2)早期的实证研究表明人类更多地依赖与相位相关的成分来识别物体。在图2例子中,CNN的预测结果几乎完全由图像的幅度谱决定,这对人类来说几乎是无法感知的。另一方面,即使把幅度谱替换掉,人类也能正确地识别出原始图像中相同的物体。

 但是,我们认为鲁棒的CNN应该对幅度变化不敏感,应该更多地关注相位谱。为了实现这一目标,提出了一种新的数据增强方法——幅相重组(APR)。

为什么认为鲁棒的CNN应该对幅度变化不敏感,应该更多地关注相位谱?

因为CNN是在模仿人类的大脑。

APR的核心是将当前图像的相位谱与干扰图像的幅值谱重新组合,生成新的训练样本,并将其标签设置为当前图像。也就是说,生成的样本迫使CNN从相位分量而不是幅度中捕捉更多的结构化信息。具体来说,当前图像的干扰图像以两种方式出现:现有的旋转和随机裁剪等数据增强方法生成的其他图像及其增强,分别为成对图像的APR (APR- p)和单幅图像的APR (APR- s)。

在多种泛化和校准任务上的大量实验,证明了提出的APR优于baseline;各种常见扰动显著地改变了高频幅度分量,而对相谱相关分量影响不大。因此,attack sample可能会迷惑CNN,但很容易被人类识别。另一方面,OOD样本往往呈现完全不同的图像结构,但在高频幅度分量上可能有一些相似之处,这使得CNN难以区分。

贡献

(1)我们提出:一个鲁棒的CNN应该对幅度变化具有鲁棒性,并通过一系列定量和定性分析,更多地关注与相位谱相关的分量;

(2)提出了一种新的数据增强方法,以迫使 CNN 更多地关注相位谱,并在多种概括和校准任务上取得最新的性能,包括对常见的适应性和表面变化、鲁棒性检测和对抗性攻击;

(3)对 cnn 对常见的扰动和ood的过度自信行为提供了统一的解释(上面蓝色部分)。

二、相关工作

一些工作从频域的角度为神经网络的行为提供了新的见解:

(1)与人类不同,高频成分在提高 CNN 的准确性方面起着重要作用-->平滑CNN核有助于加强模型使用低频特征。

(2)在低频扰动下,最先进的防御几乎像未防御的模型一样脆弱,这意味着当前的防御技术只在高频领域有效地对抗攻击

(3)CNN可以捕捉相位谱的额外隐含特征,这有利于人脸伪造检测。

数据增强

数据增强被广泛应用于防止深度神经网络过拟合,提高了泛化性能。

但是,许多数据增强方法大大降低了non-adversarial的精度,或者需要自适应和复杂的参数来适应不同的任务。

三、CNN在频域的秘密

3.1 频域定性研究

定性分析来测量幅度和相位的贡献。

(1)在CIFAR-10上进行了几个实验,以评价利用不同类型的幅度和相位谱的inversed图像(inversed images)训练的CNN的性能。

对于图像x,其频域由幅值和相位组成:

其中,其中⊗表示两个矩阵按元素进行的乘法,也就是卷积。这里将Px、PLx、PIx、phx四种相位谱分别与Ax、ALx、AIx、AHx四种幅度谱相结合。 ALx、AIx、AHx和PLx、PIx、PHx分别用低通Hl、高通Hh和带通Hb滤波器表示低频、中频和高频的幅谱和相位。

如式(1),如果Ax=0,则对应的Fx=0,那么就无法考虑相位谱Px。为了减轻这种影响,我们将传递函数定义为:

z_hat?

 最后,将Px、PLx_hat、PIx_hat和PHx_hat分别与ax、ALx_hat、AIx_hat和AHx_hat结合。

为了定量评价,我们将上述每一对幅度和相位谱的inversed图像训练在ResNet-18上:

 其中iDFT为离散傅里叶反变换(DFT), f(·)为具有可学习参数θ的CNN模型。

每组训练的模型的测试精度如图4所示。

  • 相应频域中的相位和幅度的组合在不同的组合方式下获得了更好的性能,这表明 cnn 能够同时从幅度和相位谱中获取有效的信息
  • 此外,在分别固定幅度谱和相位谱时,无幅度的变化范围大于无相位情况下按箭头的两个方向变化的范围。结果表明,cnn 的收敛更多地依赖于幅度谱,而忽略了相位谱

此外,从 cifar-10中随机抽取1000个样本。

首先,用高斯噪声产生1000个样本,并显示了损坏样本和原始样本的分布,如图5(a)所示。可以观察到两种样本的高频幅度谱是如此不同,而被污染的样本只是加入了不可见的噪声。因此,当幅度谱改变时,cnn 会做出错误的预测。因此,我们提出一个假设(称为A1) ,假设:

Assumption 1. 没有有效训练约束的 cnn 倾向于感知更多的幅度谱而不是相位谱。

然后,我们可以对CNN的鲁棒性提出另一种形式表述为:

推论1. 在假设A1下,存在一个样本<x,y>,其幅值为Ax,相位为Px,没有有效训练约束的模型f(·)不能鲁棒地预测,其中\epsilon为允许扰动的上界。

 其次,我们从CIFAR-100中随机抽取1000个OOD样本。如图5(b)所示,即使这些样本来自不同的类别,它也无法区分in-distribution和out-of-distribution的高频幅谱。因此,当出现相似的幅度信息时,CNN会对某些分布过于自信。因此,我们首先尝试为OOD对常见扰动和过度自信的鲁棒性行为提供一个假设(称为A2):

Assumption 2. 对常见扰动的敏感性和OOD的过度自信可能都是由于 cnn 对幅度谱的过度依赖。

同时,我们可以将我们关于OOD的主要论点扩展为一个新的正式声明:

推论2. 在A1和A2假设条件下,存在in-distribution样本<x1,y>和out-of-distribution样本<x2>,它们的幅值为Ax1、Ax2,相位为Px1、Px2,因此,如果没有有效的训练约束,模型对\hat{x}=i D F T\left(\mathcal{A}_{x_{1}} \otimes e^{i \cdot \mathcal{P}_{x_{2}}}\right)具有很高的置信度。

证明是前面讨论的直接结果,因此省略了。推论1在之前的著作中已经被证明,推论2也可以被经验验证(如图2和图3),因此我们可以有把握地说,这两个推论可以作为CNN泛化行为的替代解释

3.2 相位谱的作用

如果只保留相位谱,信号的许多重要特征将被保留。我们希望探讨为什么图像的重要信息保留在相位谱中。在这里,我们从基于模板的对比度计算的角度重新解释了离散傅里叶变换的概念

给出一个分辨率为 N × N 的灰度图像,其(u,v)处的复值傅里叶系数可以计算为:

其中,,那么,x (u,v)的实部和虚部可以重写为:

傅里叶变换的(u,v)频率可以解释为由4个基于模板的对比计算:

此外,我们可以根据实部和虚部的符号为图像x定义4×N×N模板。图6显示了一个基于模板的示例。

 同时,图像x的相位谱Px(u, v)等于,可以重新解释为:

 

在上式中,首先,我们可以观察到以上四个模板都编码在光谱相位中。因此,所有4×N×N模板都包含在相谱中。这种基于模板的对比可以帮助解释相位谱的重要性。一旦正确估计出包含更多目标且没有干扰的模板,该模型就能高效地定位目标对象。另一方面,相谱中的这些模板可以帮助恢复原始图像的结构信息,即使没有原始幅谱,如图3所示。健壮的人类视觉系统也可以依靠这种可见的结构化信息进行识别。

为什么变成了卷积?

 四、Amplitude-Phase Recombination(幅相重组)

基于人类强大的泛化能力,我们认为减少对幅度谱的依赖,增强相位谱的捕获能力可以提高CNN的鲁棒性。为此,我们引入了一种非参数数据增强方法,即幅相重组法(APR),在单样本或成对样本的基础上构造更有效的训练例子。

成对样本的APR(APR-P)

首先,(xi, yi)和(xj, yj)是从我们的训练数据中随机抽取的两个例子。APR的主要原理是尽可能地改变幅度谱,同时保持相位谱和相应的标签不变。因此,APR-P可以定义为:

然后生成inversed训练对样本注意,我们使用相位的标签作为目标,以允许模型在相位谱中找到有效的结构化信息。同时,通过各种频谱变化,模型逐渐忽略了来自不易察觉的幅度谱的信息。它可以通过Mixup的方式实现,使用一个single数据加载器获取一个minibatch,然后对原始的minibatch和随机shuffling后的minibatch应用APR-P。

单样本的APR(APR-S)

对于一个单一的训练样本,我们考虑一个由K个不同 (随机或确定)变换组成的集合S,表示为S = { S1,S2,... Sk }。在这里,我们试图将样本(x,y)及其转换后的样本 x_hat 视为具有相同标签的两个不同样本。APR-S 的过程可以表示为:

 这里S_hat和S是基于不同的随机种子或序列的转换集。

此外,这两种幅相组合方法可以组合使用,对不同的数据产生不同的增益。图7显示了几个来自APR-P和APR-S的例子。

 

幅度-相位组合的两种方法:APR-P和APR-S。与使用ARP-P方法的样本相比,使用APR-S方法反演的图像与原始图像差别较小。

五、实验

数据集。CIFAR-10和CIFAR-100数据集包含32x32x3颜色的自然图像,都包含50000张训练图像和10000张测试图像。CIFAR-10有10个类别,CIFAR-100有100个类别。更大更复杂的ImageNet数据集包含大约120万幅大型彩色图像的1000类。

为了测量模型对常见破坏和表面变化的弹性,我们在CIFAR-10-C、CIFAR-100-C和ImageNet-C数据集上评估方法。这些数据集是通过破坏原始CIFAR和ImageNet测试集来构建的。对于每个数据集,总共有15种noise、blur、weather、digital破坏类型,每种类型有5个严重级别或强度。

由于这些数据集是用来测量数据转移下的网络行为,所以这15种损坏不会被引入到训练过程中。

为了测量对OOD检测的能力,我们将CIFAR-10作为in-distribution数据集,并将以下数据集作为OOD:SVHN,LSUN和ImageNet,CIFAR-100。

5.1 CIFAR-10 and CIFAR-100

训练设置。为了提高模型对常见破坏和表面变化的弹性,采用了各种架构,包括全卷积网络、DenseNet-BC(k= 2,d=100)、一个40-2 Wide ResNet和ResNeXt-29(32x4)。

所有网络的初始学习率为0.1,每60个epoch衰减一次。所有模型都需要200个epochs收敛。

使用Nesterov动量优化随机梯度下降。所有输入图像都经过“标准”随机左右翻转裁剪处理,然后进行任何增强。

对于APR-S的数据扩充,我们采用了[21]中使用的那些,如附录所示。对于OOD检测,我们使用ResNet-18和上面相同的训练策略。数据扩充的设置与上述相同。我们报告受试者工作特征曲线下的面积(AUROC)作为检测评分的无阈值评估指标

将所有的方法分为两类,一种是在标准增强(随机左右翻转,裁剪)的基础上添加一个增强,另一种是添加多个增强的组合。

评估指标?

常见的破坏和表面变化

首先评估所有常见破坏和表面变化的方法,如noise, blur, weather, and digital。

(1)与基于成对图像的Mixup或CutMix相比,我们的基于成对图像的交换幅谱的APR-P对于CIFAR-100的绝对破坏误差降低了6%,如表1所示。

(2)对于基于多种增强组合的方法,我们的APR-S算法仅对单图像进行交叉熵损失(CE)处理,其性能优于单纯混合随机增强并大量使用Jensen-Shannon损失的AugMix算法。

(2)在CIFAR-100中,当结合我们的方法处理单个和成对图像时,APR-SP比AugMix性能提高了5%。除了超越众多其他数据增强技术之外,表1还表明,这些增益来自于幅度和相位的简单重组,而不需要复杂的混淆策略。更多关于测试准确性的比较和结果显示在附录中。

 Out-of-Distribution检测

我们比较了APR与那些增强(Cutout,和Mixup)和那几种训练方法,交叉熵,监督对比学习(SupCLR),和最先进的方法对比移位实例(CSI)。由于我们的目标是校准置信度,所以使用最大softmax概率来检测OOD样本。表2显示了结果。首先,APR-P在保持测试精度的同时,始终比CIFAR-10上的Cutout提高2%的AUROC。然后,将基于单幅图像和基于成对图像的APR结合后,APR-SP超过了CSI,在几乎所有的OOD任务中都有所收获。APR促进CNN更多地关注相位谱,从而有效地检测出在振幅谱中影响CNN决策的一些OOD样本。

5.2  ImageNet Classsification

训练设置。resnet - 50的初始学习率为0.1,每30个epoch衰减一次。该算法采用动量为0.9的随机梯度下降法进行优化,需要100次收敛。所有输入图像均采用标准随机裁剪水平镜像进行预处理。对于APR-S的数据增强,我们采用了[21]中使用的那些没有增强的数据,如对比度、颜色、亮度、锐度和剪切,这些可能与ImageNet-C的损坏重叠。在[21]之后,我们利用通过AlexNet的corruption err来规范化corruption error的约定。

Corruption Error(CEc)的计算:

15个Corruption Error的平均值是Mean Corruption Error(mCEc)。

结果。我们的方法APR-SP在保持测试精度的同时,比基线的80.6% mCEc提高了15%。其他方法如AutoAugment和AugMix需要更复杂的组合策略,而我们的方法不需要。同时,APR提高了Corruption的鲁棒性和几乎每个Corruption和严重程度的不确定性估计,而缩放模糊的性能与大多数方法相当。APR-SP比APR-S和APR-P大约提高了5%,带有DeepAugment的APR-SP比reproduced的DeepAugment提高了6%。如图8所示,用APR-SP训练的CNN即使在浓雾中也能聚焦目标物体的部分进行分类。

  • 这些结果表明,将APR从CIFAR扩展到ImageNet还会带来鲁棒性和不确定性估计方面的一流结果。

六、总结

本文提出了一系列定量和定性的分析,表明鲁棒的CNN应该对振幅方差具有鲁棒性,并更加关注与相位谱相关的分量。在此基础上,提出了一种新的数据增强方法APR,使CNN更加关注相位谱,并在多种泛化和标定任务上实现了最先进的性能。同时,通过CNN对振幅谱的过度依赖,对对抗性攻击行为和OOD的过度自信行为提供了统一的解释。展望未来,在计算机视觉研究的时代,还可以开发出更多关于相位的研究方向。一个可能的方向是探索如何在依赖相位谱的神经网络中表示部分-整体层次。另一方面,更多的CNN模型或卷积操作捕捉更多的相位信息是值得探索的。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值