深度学习分布外泛化

一、介绍

深度神经网络:假设测试数据和训练数据之间独立同分布,无法保证模型在真实、开放情况下的预测性能(传统的方法要么假设已知的训练数据的异质性(例如域标签),要么假设不同域的容量近似相等。)

现考虑情况:之前两假设都不成立,通过训练样本学习权重来消除特征之间的依赖关系。

问题:本质上,当分布发生偏移时,当前模型的精度下降主要是由于不相关特征(即与给定类别无关的特征,如上下文特征、图形样式等特征)和类别标签之间的虚假相关性造成的,而这种虚假相关性本质上是由不相关特征和相关特征(即与给定类别相关的特征)之间的微妙相关性引起的。举例:大多数图像狗在水中,狗的视觉特征和水就有很强的关联性,从而导致了水的视觉特征和“狗”这一标签之间的虚假关联性。因此当遇到没有水的狗或者在水中的其他动物如猫时,就很容易发生错误的预测。

这种问题在关于DG的文献中被深入研究。

域泛化(DG):基本思想是将一个类别划分为多个领域,使无关的特征在不同的领域中发生变化,而相关的特征保持不变。这样的训练数据使一个设计良好的模型能够学习跨领域的不变表示,并抑制来自不相关特征的负面影响,从而在分布转移下获得更好的泛化能力。(然而一些开创性的方法需要明确且显著的异质性,即域被手动划分和标记,这在实际应用中并不能总是得到满足。在实际情况下,很容易违反域平衡的假设,导致这些方法的退化。)

考虑一个更现实和具有挑战性的情况,其中训练数据的领域是未知的,我们不隐式地假设潜在的领域是平衡的。

现有的两种较好的方法以:提出通过去掉关联相关特征和不相关特征来实现分布外泛化。由于没有额外的监督来分离相关的特征和不相关的特征,一个保守的解决方案是将所有的特征去关联,这个方法已被证明在提高线性模型的泛化能力方面是有效的。2、以关联输入变量为目标的样本加权方法。从理论上证明了为什么这种样本加权可以使线性模型在分布变化下产生稳定的预测。

    局限性:但它们都是在线性框架的约束下发展起来的,当将这些想法扩展到深度模型以处理图像等更复杂的数据类型时,不再合适。

     在这种情况下面对着两个挑战:1、特征之间复杂的非线性依赖关系比线性依赖关系更难以测量和消除;2、这些方法中的全局样本加权策略在深度模型中需要过多的存储和计算成本,这在实践中难以实现。

     为了解决这两个挑战,我们提出了一种称为稳态网的方法。

     第一个挑战:提出了一种基于随机傅里叶特征的具有线性计算复杂度的非线性特征去相关方法。

     第二个挑战:提出了一种非常有效的优化机制,通过迭代保存和重新加载模型的特征和权重,来全局感知和去除相关性。

     这两个模块在我们的方法中进行了联合优化,使得稳态网方法可以有效地分割不相关的特征(即水),并利用真正相关的特征进行预测,从而在自然非平稳环境中性能更稳定。

  • 相关工作

域泛化(DG):考虑了使用多个源域训练的深度模型对不可见域的泛化能力。一种常见的方法是在多个源域上提取域不变的特征,或聚合特定于域的模块,还有一些工作提出通过增加源域来扩大可用的数据空间。可以通过利用正则化与元学习和不变风险最小化(IRM)框架几种方法来实现DG。尽管DG方法实验中取得了很好的结果,但由于有一些限制性很强的假设,如手动划分和标记域,以及来自每个域的平衡采样过程,实际上阻碍了DG方法的实际应用。

特征解关联:一些基于Lasso框架的开创性工作提出,通过添加一个正则化器来去关联特征,即强制选择高度相关的特征不被同时选择。最近,一些工作在理论上建立了错误规范下的相关性和模型稳定性之间的联系,并提出通过样本重加权方案来解决这一问题。然而,上述方法都是在线性框架下开发的,它不能处理计算机视觉应用中的图像和视频等复杂的数据类型。

  • 分布泛化的样本加权

通过全局加权样本来解决对每个输入样本的所有特征直接去关联的分布移位问题,从而消除了相关特征和不相关特征之间的统计相关性。具体来说,就是利用随机傅里叶特征(RFF)的特征和样本加权,消除了特征之间的线性和非线性依赖关系。为了将全局去相关方法应用于现代深度模型,进一步提出了保存和重新加载全局相关机制,以减少训练数据大规模时存储的使用和计算成本。(计算公式和理论解释见第3.1节。在第3.2节中,介绍了保存和重新加载全局相关的方法,该方法使得使用深度模型计算全局相关成为可能)

符号X⊂RmX表示原始像素的空间,Y⊂RmY表示结果空间,Z⊂RmZ表示表示空间。mX、mY、mZ分别为空间X、Y、Z的维数,f : X→Z为表示函数,g: Z→Y为预测函数。我们有n个样本X⊂Rn×mX,标签为Y⊂Rn×mY,我们使用Xi和yi来表示第i个样本。通过神经网络学习到的表示被捐赠为Z⊂Rn×mZ,表示空间中的第i个变量被捐赠为Z:,i· 。我们使用w∈Rn来表示样本的权重。u和v是随机傅里叶特征映射函数。

3.1.使用RFF进行样本加权

独立测试统计:为了消除表示空间中任意一对特征Z:、i和Z:、j之间的依赖性,引入了假设检验统计量来度量随机变量之间的独立性。

假设有两个一维随机变量A,B(这里我们使用A和B来表示随机变量,而不是Z:,I和Z:,J,为了简单地表示符号。)我们分别从A和B的分布中取样(A1、A2、…An)和(B1、B2、…Bn)。主要的问题是这两个变量基于样本的相关性如何。考虑随机变量A的域上的一个可测的正定核kA,相应的RKHS用HA表示,kB和HB的定义相似,则从HB到HA交叉协方差算子ΣAB为

uploading.4e448015.gif

正在上传…重新上传取消

uploading.4e448015.gif

正在上传…重新上传取消

希尔伯特-施密特独立准则(HSIC)要求ΣAB的平方希尔伯特-施密特范数应为零,此时可以作为监督特征去相关的准则。然而,HSIC的计算需要明显的计算成本,随着训练数据批量规模的增加而增加,因此不适用于在大数据集上训练深度模型。实际上,弗罗比尼乌斯范数对应于欧几里得空间[53]中的希尔伯特施密特范数,因此独立检验统计量可以基于弗罗比尼乌斯范数。设部分交叉协方差矩阵为:

uploading.4e448015.gif

正在上传…重新上传取消

这里我们分别从HRFF中采样nA和nB函数,HRFF表示随机傅里叶特征的函数空间,其形式如下:

uploading.4e448015.gif

正在上传…重新上传取消

ω从标准正态分布中采样,φ从均匀分布中采样。然后,将独立性检验统计量IAB定义为部分交叉协方差矩阵的弗罗比尼乌斯范数,

uploading.4e448015.gif

正在上传…重新上传取消

IAB总是是非负的。当IAB减小到零时,两个变量A和B趋于独立。因此,IAB可以有效地测量随机变量之间的独立性。独立性检验的准确性随着nA和nB的增加而增加。根据经验,将nA和nB都设置为5,就足以判断随机变量的独立性。

学习去相关性的样本权值提出通过样本加权来消除表示空间中特征之间的依赖性,并通过RFF来度量一般独立性。我们使用w∈Rn+表示样本权重和

uploading.4e448015.gif

正在上传…重新上传取消。经过加权后,式3中随机变量A和B的部分交叉协方差矩阵可以计算如下:

uploading.4e448015.gif

正在上传…重新上传取消

这里的u和v是方程4中解释的RFF映射函数。稳态网的目标是任意一对特性之间的独立性。具体来说,对于特征Z:、i和Z:、j,对应的部分交叉协方差矩阵应为

uploading.4e448015.gif

正在上传…重新上传取消如式6所示。我们优化w通过:

uploading.4e448015.gif

正在上传…重新上传取消

因此,用最优的w∗对训练样本进行加权可以最大程度地减轻特征之间的依赖性。

一般来说,我们的算法迭代优化样本权值w,表示函数f,预测函数g如下:

uploading.4e448015.gif

正在上传…重新上传取消

uploading.4e448015.gif

正在上传…重新上传取消

3.2.全局学习样本权重

公式8要求为每个样本学习一个特定的权重。然而,在实践中,特别是对于深度学习任务,它需要巨大的存储和计算成本来全局学习样本权重。此外,使用SGD进行优化时,每批样本只观察到部分样本,因此无法学习所有样本的全局权重。在本部分中,我们提出了一种保存和重加载方法,将训练阶段遇到的特征和样本权重合并和保存,并将它们重新加载为所有训练数据的全局知识,以优化样本权重。

对于每个批处理,用于优化样本权值的特征生成如下:

uploading.4e448015.gif

正在上传…重新上传取消

这里我们用很多符号ZO和wO意味着的特性和权重用于优化新样本权重,ZG1、····ZGk,wG1、····wGk分别代表全部特征和对应权重,每批最后更新,代表整个训练数据集的全部信息的更新。ZL和wL是当前批处理中的特征和权重,表示局部信息。合并公式9中所有特征的操作是沿样本的连接操作,即如果批大小为B,ZO是一个大小矩阵((k + 1)B)×mZ,wO是一个((k + 1)B)维向量。通过这种方式,我们将存储量和计算成本从O (N)降低到O(kB)。在对每批进行训练时,我们保持wGi固定,只有wL在公式8下是可学习的。在每次训练迭代结束时,我们将全局信息(ZGi、wGi)和局部信息(ZL、wL)融合如下:

uploading.4e448015.gif

正在上传…重新上传取消

这里对于每一组全球信息(ZGi,wGi),我们使用k不同的平滑参数αi考虑长期记忆(αi大)和短期计量(αi小)在全球信息和k表明预测的特性是原始特性的k倍。最后,我们用(Z‘Gi、w’Gi)替换全部(ZGi、wGi)代替下一批。

在训练阶段,我们使用公式8迭代地优化样本权值和模型参数。在推理阶段,预测模型直接进行预测,而不需要计算任何样本权重。

(稳态网的训练流程 如下图)

uploading.4e448015.gif

正在上传…重新上传取消

  • 实验

4.1.实验设置和数据集

为了涵盖更普遍和更具挑战性的分布转移的情况,我们采用了以下四种实验设置:

不平衡:在普通的DG设置中,假定源域的容量是可比较的。然而,考虑到大多数数据集都是潜在未知域的集合,我们很难假设来自这些域的样本数量是一致的,因为这些数据集不是通过来自潜在域的相同采样而产生的。我们用这样的设置来模拟这种场景。域被拆分为源域和目标域。不同领域的容量可以有很大的差异。请注意,在此设置中,可用域的容量不平衡,而每个类的比例在不同域之间保持一致,这与类不平衡问题的设置完全不同。这个设置是为了评估当异质性不明确和不显著时,模型的泛化能力。

灵活:这种情况更具挑战性,但在现实世界中很常见,其中不同类别的域可能是不同的(例如,鸟类可以站在树上,但很少站在水里,而鱼则恰恰相反。如果我们将图像中的背景作为领域划分的指标,那么“鸟”类的图像可以划分为“树”,但不能划分为“水”,而“鱼”类的图像则可以,导致不同类别之间域的多样性。)因此,这种设置模拟了一个在现实世界中广泛存在的场景。在这种情况下,分布转移的级别在不同的类别中是不同的由于相关特征和分类不相关特征之间的统计相关性不同,需要有很强的泛化能力

对抗:模型受到了对抗性的攻击,并且域和标签之间的虚假相关性很强并且具有误导性的。(例如,我们假设这样一个场景,在训练数据中,类别“狗”通常与域“草”和类别“猫”与域“沙发”相关联,而在测试数据中,类别“狗”通常与域“沙发”和类别“猫”通常与域“草”相关联。如果“狗”类图像中域“草”的比例明显高于其他类别,则预测模型可能倾向于将草识别为狗。)

经典:与DG中的普通设置相同。不同领域的能力是具有可比性的。因此,当训练数据的异质性显著且清晰时,该设置是为了评估模型的泛化能力,与前三种设置相比,其挑战性较小。

数据集:我们考虑四个数据集来执行这四种设置,即PACS ,VLCS ,MNIST-M 和NICO 。

4.2.不平衡设置

鉴于此设置要求数据集中的所有类共享相同的候选域集,这与NICO不兼容,因此我们对此设置采用PACS和VLCS。三个域被认为是源域,另一个域被认为是目标域。为了明确区分来自异构源的数据量,我们设置了一个域为主导域。对于每个目标域,我们从源域中随机选择一个域作为主导源域,并调整来自主导域与其他两个域的数据比例。在这里,我们展示了表1中三个源域的容量比为5:1:1时的结果,并且我们的方法在PACS和VLCS上的所有目标域上都优于其他方法。在其他比率下,稳态网始终性能最佳。这些结果表明,相关特征和不相关特征之间的微妙的统计相关性很强,足以显著损害跨领域的泛化。当相关性被消除后,模型能够学习相关特征和标签之间的真实联系,并仅根据它们进行推理,从而更好地泛化。

对于像DGMMLD 这样的反向训练方法,来自小领域的监督是无效的,模型区分不相关特征的能力受到损害。对于基于M-ADA 等基于源域的增强方法,主导域的影响没有减弱,而次要域的影响在增强后仍然不显著。RSC 等方法采用正则化方法来防止模型在源域上的过拟合,可以将来自小域的样本视为异常值而忽略。

因此,相关特征和不相关特征之间的微妙相关性,特别是在较小的领域中,并没有被消除。

4.3.不平衡的+灵活的设置

我们采用PACS、VLCS和NICO来评估不平衡的+柔性设置。对于PACS和VLCS,我们随机选择一个域作为每一类的主导域,并且选择另一个域作为目标域。对于NICO,每个类有10个域,其中8个被选为源域,2个作为目标域。我们调整主导域与次要域的比例,以调整分布变化的水平。在这里,我们报告了当主导比例为5:1:1时的结果。结果如表2所示。在此设置下,M-ADA和DGMMLD在NICO上的性能不能优于ResNet-18。M-ADA生成用于使用自动编码器进行训练的图像,当训练数据是大尺度的真实图像,且分布变化不是由随机干扰引起时,M-ADA可能会失败。DG-MMLD生成带有聚类的域标签,当数据缺乏明确的异质性或潜在域的数量太大而无法聚类时,可能会失败。相比之下,当输入数据结构复杂时,特别是来自无限资源的真实图像时,统计具有较强的泛化能力。稳态网可以捕获各种形式的依赖关系,并平衡输入数据的分布。在PACS和VLCS上,稳态网也优于最先进的方法,显示了删除特性之间的统计依赖关系的有效性,特别是当不同类别的源域不一致时。

uploading.4e448015.gif

正在上传…重新上传取消

表1:PACS和VLCS的不平衡设置结果。我们在RACS和VLCS上重新实现了不需要域标签的方法,ResNet18 预先训练在IMAageNet上作为所有方法的主干网络。报告的结果是每次跑步重复三次后的平均值。每列的标题表示用作目标的域的名称。所有方法的最佳结果都用粗体字体突出显示,第二个字体用下划线突出显示。

表2:在PACS、VLCS和NICO上的不平衡+灵活的设置的结果。有关运行次数、列标题和字体的含义的详细信息,请参见表1。

4.4.不平衡的+灵活的+对抗性设置

为了利用不同级别的对抗性攻击的效果,由于在MNIST-M中有大量的(200)个可选域,我们采用MNIST-M来评估我们的方法。PACS和VLCS中的域不足以生成多个对抗性级别。因此,我们生成了一个新的MNIST-M数据集,有三个规则: 1)对于给定的类别,训练和测试的域之间没有重叠;2)为训练集中的每个类别随机选择背景图像,并在同一图像中裁剪的上下文作为测试数据中另一个类别的主导上下文(域),这样标签和域之间存在很强的虚假相关性;3)主导上下文与其他上下文的比例从9.5:1到1:1不等,以生成具有不同分布变化级别的设置。

结果如表3所示。随着主导比的增加,领域和类别之间的虚假相关性变得更强,从而导致预测模型的性能下降。当视觉特征的不平衡显著时,我们的方法与基线方法相比取得了明显的改善。对于基于正则化的方法,如RSC,它们往往会削弱来自小领域的监督,这些小领域可能被视为异常值,因此无关特征和标签之间的虚假相关性在对抗性攻击下得到加强,导致结果与普通的ResNet模型相比更差。如表3所示,RSC未能优于普通的cnn。

uploading.4e448015.gif

正在上传…重新上传取消

表3:MNIST-m上不平衡+灵活+对抗设置的结果。随机捐赠每个数字在随机选择的背景上混合。DR0.5表明,在每个类中,主导域在所有训练数据中占50%,其他具有“DR”的符号相似。

表4:对PACS和VLCS的经典设置的结果。所有关于PACS的结果均来自于这些方法的原始论文。我们重新实现了在VLCS上不需要域标签的方法,因为这些方法在原始论文中使用AlexNet 进行了测试,而我们采用ResNet18 作为所有方法的骨干网络。需要使用域标签的方法将用星号进行标记。

4.5.经典设置

经典的设置与DG中的普通设置相同。域被拆分为源域和目标域。不同领域的能力是具有可比性的。鉴于此设置要求数据集中的所有类共享相同的候选域集,这与NICO不兼容,因此我们对此设置采用了PACS和VLCS。我们对两个数据集都遵循的实验协议,并利用三个域作为源域,其余一个域作为目标。

结果如表4所示。在VLCS上,稳态网在四种目标情况下优于其他最先进的方法,并达到了最高的平均精度。在PACS上,稳态网在目标域“照片”上具有最高的精度,并且具有相当的平均精度(降低0.46%)。稳态网与基线之间的精度差距表明,即使来自不同源域的样本数量近似相同,相关特征与无关特征之间微妙的统计相关性仍然很强,当相关性消除后,模型在跨领域更好地推广。

4.6.消融研究

稳态网依赖于从高斯分布中采样的随机傅里叶特征来平衡训练数据。采样的特征越多,最终的表示就越独立。然而,在实践中,生成更多的特征需要更多的计算成本。在这个消融研究中,我们利用采样大小对随机傅里叶特征的影响效果。此外,受[57]的启发,我们可以通过随机选择用于计算不同比例的依赖性的特征来进一步降低特征维数。图3显示了具有不同维数的随机傅里叶特征的统计网的结果。如果我们去掉所有的随机傅里叶特征,我们在方程7中的正则化器就会退化,并且只能建模特征之间的线性相关性。图2(a)展示了消除表示形式之间的非线性依赖关系的有效性。从图2(b)中可以看出,非线性依赖性在视觉特征中是常见的,并且使深度模型无法学习输入图像和类别标签之间的真实依赖性。

我们进一步利用了方程9中预测特征的大小和权重的影响,结果如图2(c).所示当预测特征的大小减小到0时,在每个批内部学习样本权值会产生明显的方差。一般情况下,随着预测量的增加,精度略有提高,方差显著下降,这表明预测特征有助于全局学习样本权重,因此模型的泛化能力更加稳定。

图3:对NICO的消融研究结果。所有的实验都采用NICO,因为NICO包含广泛的域和对象,所有的域都来自真实的图像,使得结果的指示更加可靠。(a)中的RFF维数表示傅里叶特征的维数,其中10x表示傅里叶特征的维数是原始特征大小的10倍,0.3x表示采样比为30%。统计网-n和统计网-l表示原始的统计网和统计网的退化版本,它们只消除了特征之间的线性相关性。(c)中的显示大小表示预测特征的尺寸,0x表示没有保存任何特征。

图4:ResNet-18模型和StableNet的显著性图。像素越亮,它对预测的贡献就越大。

uploading.4e448015.gif

正在上传…重新上传取消

4.7.显著图

对图像分类模型的一种直观的解释类型是识别对最终决策有很大影响的像素。为了演示模型在进行预测时是关注对象还是上下文(域),我们可视化了类分数函数相对于输入像素的梯度。在稳定学习的情况下,我们对所有方法都采用了相同的主干架构,因此我们采用了所建议的平滑梯度,它根据模型的学习参数而不是架构来生成显著性映射。可视化结果如图4所示。基线模型的显著性图显示,不同的上下文吸引了分类器的明显焦点,而没有对我们的模型做出决定性的贡献。更多的可视化结果见附录C.6,进一步证明了当物体的姿势或位置变化时,统计更关注区分和不变的视觉部分。

  • 总结

为了提高深度模型在分布偏移条件下的泛化性,我们提出了一种新的统计网方法,该方法可以通过样本加权来消除相关特征和不相关特征之间的统计相关性。在广泛设置的广泛实验证明了我们的方法的有效性。

  • 28
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Saslil

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值