残差神经网络中的扩散机制:理论与应用
作者:Tangjun Wang; Zehao Dou; Chenglong Bao; Zuoqiang Shi
源码链接:https://github.com/shwangtangjun/Diff-ResNet
摘要
扩散是一种在许多物理过程中出现的基本内部机制,描述了不同对象之间的相互作用。在许多训练样本受限的学习任务中,扩散将标记和未标记的数据点连接起来,是实现高分类精度的关键组成部分。许多现有的深度学习方法在训练神经网络时直接施加融合损失。在这项工作中,受对流-扩散常微分方程(ODEs)的启发,我们提出了一种新颖的扩散残差网络(Diff-ResNet),将扩散内部引入到神经网络的架构中。在结构化数据的假设下,证明了所提出的扩散块可以增加距离直径比,这提高了类间点的可分性,并减少了局部类内点之间的距离。此外,该性质可以很容易地被残差网络采用,以构建可分离的超平面。在各种数据集上的合成二元分类、半监督图节点分类和少样本图像分类的广泛实验验证了所提出方法的有效性。
关键词
-
扩散,残差神经网络,常微分方程,半监督学习,少样本学习。
I. 引言
残差网络(ResNet)及其变体,包含不同层之间的跳跃连接,在深度学习中是大有希望的网络架构。与非残差网络相比,ResNet显著提高了训练稳定性和泛化精度。为了理解ResNet的成功,最近一系列工作建立了它与常微分方程(ODEs)的联系。设为一个数据点,ResNet的ODE模型是:
深度学习方法的成功高度依赖于大量的训练样本,但收集训练数据需要大量的劳动工作,有时由于隐私或安全问题,在许多应用领域中是不可能的。为了减轻对训练数据的依赖,半监督学习(SSL)和少样本学习(FSL)近年来受到了极大的关注。半监督学习通常使用大量的未标记数据,与标记数据一起,构建更好的分类器。少样本学习是一种更近期的范式,与半监督学习密切相关,主要区别在于支持集(标记点)的大小要小得多。SSL和FSL的一个共同特点是利用未标记样本来解决标记集受限的问题。有关SSL和FSL的综述,请参见[18],[21]。在这项工作中,我们专注于解决SSL问题的基于深度学习的方法。一般来说,深度SSL方法可以分为两类:一致性正则化和熵最小化。一致性正则化要求对输入的微小扰动不会显著改变输出。基于此思想的Π-Model和其更稳定的版本Mean Teacher要求不同传递中的随机网络预测几乎没有干扰。VAT用“最坏”的扰动替换了随机扰动,这种扰动可以最大程度地影响预测函数的输出。熵最小化与自训练密切相关,鼓励对未标记数据进行更有信心的预测。EntMin对未标记样本的预测施加低熵要求。伪标签将高预测置信度的未标记样本作为标记样本输入网络以训练更好的分类器。此外,一些整体方法试图将当前有效的SSL方法统一到一个框架中,例如MixMatch,FixMatch。尽管存在许多在各种任务中取得令人印象深刻结果的深度SSL方法,但一致性正则化或熵最小化方法在SSL/FSL分类中的内部机制仍然不清楚。
为了揭开SSL和FSL中的这一谜团,我们提出了一个基于ODE的深度神经网络,它基于ODE和ResNet之间的联系。如(1)所示,ResNet的当前ODE对应物是对流方程。每个由(1)控制的点都独立演化。当有大量训练样本可用时,这种演化过程是可以接受的,但当监督样本的数量减少时,性能会显著恶化。因此,直接将(1)应用于SSL/FSL可能存在问题。为了解决这个问题,我们在(1)中引入了扩散机制&