斯坦福马腾宇:用显式正则器提升深度神经网络的泛化能力

2019年12月30日,在“智源论坛·海外学者学术报告会”上,斯坦福大学计算机科学和统计学助理教授马腾宇博士做了《为深度模型设计显式正则器》的主题演讲。马腾宇,本科就读于清华大学交叉信息研究院,是2008级“姚班”学生,毕业后赴美国普林斯顿攻读博士学位。马腾宇主要研究机器学习和算法等相关领域,目前已经在国际顶级会议和期刊上发表了40多篇高质量论文,还获得了2018ACM博士论文奖、NeurIPS 2016最佳学生论文奖、 COLT 2018最佳论文奖等荣誉。

 

在马腾宇的博士论文中,他提出了一种支持机器学习新趋势的全新理论,该理论推进了对机器学习非凸优化算法收敛性的证明,概述了使用这种方法训练的机器学习的模型特征。目前,深度学习中的大量模型同样是非凸的,有多个全局最优解存在,因此在使用数据模拟和逼近的过程中不同的算法可能找到不同的全局最优解。那么,如何在拟合现有训练数据的时候找到合适的全局最优解,从而提高对测试数据集的泛化能力呢?本次讲座,马腾宇为我们介绍了一些近期的显式正则化方法,设计显式正则器以提高深度神经网络的泛化能力,推导深度神经网络基于数据依赖的泛化边界,并根据经验对边界进行正则化,以在标准精度或稳健精度方面获得改进的泛化能力,最终将这些技术应用于不平衡数据集等最新研究结果。

下面,是关于马腾宇演讲的精彩要点介绍。

 

整理:钱小鹅

编辑:王炜强

前言

众所周知,我们一般求解的模型中参数数量是小于方程的数量的,这样我们可以用已有的数学理论去求解或优化模型。但是在深度学习中,通常需要求解的参数量是远大于方程的数量的,我们将这种情况称为超参模型(Overparametrized Deep Models)。目前,深度学习在超参模型的求解和优化这方面的理论构建还较为稀薄,通常大家都会用大量的数据来模拟,以便模型具有更好的泛化能力,因此数据量需求也越来越大,同时由于引进大量数据噪声,为了更好的模拟数据,模型也会构建的越来越复杂。鉴于此,马腾宇博士及其团队投入大量的研究,试图寻找一种更普适的模型和理论,使得在深度学习中,我们可以更少的依赖数据,但是模型的泛化能力依旧很好。

 

14世纪英格兰的逻辑学家、圣方济各会修士奥卡姆的威廉(William of Occam,约1285年至1349年)提出“简单即有效”这一原理,我们将这一原理推演到现在讨论的问题后不难得出这样的结论:模型的复杂度越低,泛化能力将会越好

马腾宇博士就此提出两个非常关键的问题:

1. 如何定义模型的复杂度?

2. 找到它们的理论方法有哪些?

 

一个很有意思的现象也佐证了上述的结论:在目前发表的深度学习方向的论文中,大部分论文的行文结构其实可以概括成两个核心部分,①该模型的复杂度较低,②模型的泛化能力很好。但是由于模型应用的局限性,想要让模型的泛化性真正的体现出来,很多时候我们首先需要理解模型。比如:学习率较大的模型通常也会导致计算所得的权重和激活层的噪声更大,因而导致网络的表达能力受限。最新的论文中[Li-Wei-M.’19][1]有结论显示如果用大学习率去训练两层的网络,结果只能表达线性的函数关系;初始值的尺度同样也会影响网络的表达,[Chizat-Bach’19][2]这篇文章中介绍了如果使用大的初始值,会导致最小NTK范数的解,[Woodworthet al.’19, Li-M.-Zhang’18][3,2]提到如果使用小的初始值,那么解的范数将更丰富。马腾宇在阅读了大量论文后,不禁想到一个问题:想要理解一个模型,是否理解其隐式正则化是唯一的途径?他认为,由于目前很多深度学习中所涉及的函数本质来看是非凸函数,因此我们暂时并不能解决复杂的问题,而是将这些问题简单化处理。但是,当问题简单化之后,很多深度学习的问题又可以被显式算法所代替。因此,经典的显式正则化方法至少在短期内应该引起我们的重视。

泛化界的定义及证明

回到关键问题中--如何定义模型的复杂度?马腾宇认为,复杂度的规范化定义需要考虑模型泛化能力的体现。马腾宇介绍了两个核心的论述,并且给出了论述2的证明过程。

第一:Complexity via Data-dependent Generalization Bounds。

如果复杂度仅依赖于训练数据的分布以及类别数n,那么将有图1中的基本限定关系:

图1:Complexity via Data-dependent Generalization Bounds

目前关于这方面的相关工作还包括[4,5,6,7,8]:

图2:相关工作介绍

第二:A Simple Generalization Bound Based on “All-Layer Margin”。

首先,我们介绍什么是 “All-Layer Margin”。不妨我们首先考虑二分类,如果模型是线性的,Margin的表达式为:

图3:线性模型Margin图解

对于非线性模型,Margin的表达式大体应该写为:

All-Layer Margin是其中一种表达式的定义方法,我们可以定义:

同样,我们还可以定义:

基于上述对于Margin的定义,我们同样可以给出于上文中相似的限定关系,不妨假设随机的给出n个数据,那么有:

更广义的推广上述公式,我们可以认为:

其中,Lipschitzness是无参概念,考察的是训练集的数据性质。从公式中我们不难看出,泛化能力的表达限制基本等同于噪声的稳定性的考察,且Lipschitzness 越小,输出的Margin 越大,模型对扰动的鲁棒性也就越好,那么泛化能力我们可以认为也将会越好。同时我们看到,公式中的泛化能力脱离了模型的具体性质,更具有普适性。

 

其实,深度学习的泛化性一直都是非常火热的问题。众所周知深度学习不同于其他机器学习的模型,在其拥有巨大参数量的同时却拥有着相对较好的泛化能力。普通的机器学习算法的误差界通过一些经典的学习理论能够很好给出的,比如VC维、Rademacher Complexity等等,给出了一个数据量和参数量所定义的泛化边界,然而这些理论在深度学习上面失效了。于是大家都开始思考,究竟怎样来证明Generalizaiton Error Bound。马博士在讲座中将如何证明泛化误差的确界问题做了简单的介绍。

 

首先小编先给大家解释两个证明中需要了解的数学概念:

1. Uniform Convergence一致收敛是高等数学中的一个重要概念,又称均匀收敛。一致收敛是一个区间(或点集)相联系,而不是与某单独的点相联系。

2.Surrogate Loss Function又名代理损失函数或者称为替代损失函数,一般是指当目标函数非凸、不连续时,数学性质不好,优化起来比较复杂,这时候需要使用其他的性能较好的函数进行替换。

证明上述的关键在于证明在Surrogate Loss上是一致收敛的,其中Surrogate Loss= g(m(x))。那么根据一致收敛的定义,问题转化为证明:①g(X)是光滑函数;②m(x)是关于参数1-Lipschitz;③使用论文[Srebro-Sridharan-Tewari’2010]中提到的标准证明方法将①②结合起来即可得到结论。在这三步中,①③是显然成立的,我们需要证明的是②。马博士随后给出了一个非常核心的结论,该结论表示“All-Layer Margin is 1-Lipschitz”,也即证实了②的正确性。

马腾宇博士继续将泛化性的研究深入到对抗攻击领域。目前,关于对抗攻击领域的研究日渐成熟,一些论文表示具有对抗鲁棒性(Adversarially Robust)的网络,其网络本身的可解释性更强。关于对抗鲁棒性上界的证明的工作,已有学者发表了相关的论文。[Khim and Loh, 2018, Yin et al., 2018][9,10]的工作依赖于神经网络的对抗性损失松弛,同时仅适用于具有一个隐藏层的神经网络。马腾宇博士及其团队的工作是第一次直接对任何网络的鲁棒误差进行定界。我们的界是根据训练数据的对抗邻域中的数据依赖性来表示的,从而避免了对网络的深度值的依赖性。马博士在上述给出的限定性条件,在对抗攻击领域同样适用,其表达形式为:

受All-Layer Margin良好性质的启发,马腾宇团队设计了一个算法,该算法最大化All-Layer Margin的值,在加入扰动后最小化扰动误差,因而使得泛化性的上界为一个较小的值。该算法名为All-Layer Margin Maximization (AMO),具体算法过程如下图所示:

图4:All-Layer Margin Optimization(AMO)

数值结果

不难看出,All-Layer Margin为深度学习的模型获得了强有力的统计保证,马腾宇在讲座的最后为我们展示了一些数值结果。马腾宇团队采用了几种方法来应用All-Layer Margin:1)得到了神经网络与数据更紧密相关的泛化界;2)对于对抗性鲁棒分类,我们直接将鲁棒泛化误差以局部lipschitz的形式限制在对抗性扰动训练例子的周围;3)设计了一个新的算法来获得更大的All-Layer Margin,并在分类设置中展示了对真实数据的泛化性能。

 

如图5是使用图4中给出的算法过程,网络结构为WideResNet[Zagoruyko,Komodakis,2016][11],数据集分别选取了CIFAR10和CIFAR100。实验中设定t=1,η=0.01,并且在WideResNet基本块中的conv层之后添加了扰动,对于WideResNet中的其他超参数则设置它们的默认值。同时,在实验中,团队尝试使用更大的t,但是结果显示,最终的结果并不很大程度上依赖t的选择。如图5是训练过程中获得的最佳验证误差,该误差非常好的证明了算法确实在WideResNet基线上改进了其泛化能力。

图5:Validation error on CIFAR-10 and CIFAR-100 forthe standard training algorithm vs. AMO

如下是在CIFAR-10 数据集上训练后误差结果:

图6: Adeversarially Robust Errors

数据依赖的泛化界及其算法的应用有很多方面,其中一方面是应用于不均衡的数据集。在实际中我们知道,数据集中的不同类别分布其实并不是均衡的的,数据量最小的类别其泛化能力相对也较弱。马腾宇博士就此给出了用于加强具有较少数据的类别的泛化能力的算法,实验表示该方法也具有较好的效果:

图7:Learning Imbalanced Datasets with Label-Distribution-Aware Margin Loss

结语

最后,马腾宇给我们分享了关于泛化的其他方法,如Weight Decay, Batchnorm, Dropout, Mixup 等方法对泛化具有积极的作用,例如:

[Tian-Le’19][12]中论述到:EfficientNet的参数量高达66M,

“As commonly known that bigger models need moreregularization, we linearly increase dropout ratio from 0.2 to 0.5 forEfficientNet-B7”。

[Wei-Lee-Liu-M.’18][13]在文中论述到:

“For 2-layer neural net, there is a simple datadistribution, such that the regularization improves the sample complexity to Õ(d) from the NTK sample。”。

同样,也有一些方法将会对模型的泛化能力造成损伤,如图8显示,更快速的训练过程将会导致模型更差的泛化能力。

图8:Faster training may leadto worse generalization

同时,马腾宇提出一些开放性的问题,值得我们继续思考:我们如何将All Layer-Margin优化的更好?是否还有其他的数据依赖的正则化方法?如何设计更好的算法,使得在非均衡的数据集上仍然有好的表达?感兴趣的读者可以继续研究探索,长路漫漫,上下求索。

参考文献 

 

[1]Colin Wei and Tengyu Ma.Data-dependent sample complexity of deep neural networks via lipschitzaugmentation. arXiv preprint arXiv:1905.03684, 2019. 

[2]Yuanzhi Li, Tengyu Ma, Hongyang Zhang ; Algorithmic Regularizationin Over-parameterized Matrix Sensing and Neural Networks with QuadraticActivations.Proceedings of the 31st Conference On Learning Theory, PMLR 75:2-47,2018.

[3]L. Chizat, E.Oyallon, F. Bach. On Lazy Training inDifferentiable Programming. To appear in Advances in Neural InformationProcessing Systems (NeurIPS), 2019. [pdf]

[4]A. Genevay, L. Chizat, F. Bach, M. Cuturi, G.Peyré. Sample Complexity of Sinkhorn divergences.Proceedings of theInternational Conference on Artificial Intelligence and Statistics(AISTATS), 2019. [pdf]

[5]NoahGolowich, Alexander Rakhlin, and Ohad Shamir. Size-independent samplecomplexity of neural networks. arXiv preprint arXiv:1712.06541, 2017.

[6]Peter LBartlett, Dylan J Foster, and Matus J Telgarsky.Spectrally-normalized margin bounds for neural networks. In Advances in NeuralInformation Processing Systems, pages 6240–6249, 2017. 

[7]Sanjeev Arora, RongGe, Behnam Neyshabur, and Yi Zhang. Stronger generalization boundsfor deep nets via a compression approach. arXiv preprint arXiv:1802.05296, 2018. 

[8]VaishnavhNagarajan and J Zico Kolter. Deterministic pac-bayesian generalization boundsfor deep networks via generalizing noise-resilience. arXiv preprint arXiv:1905.13344, 2019. 

[9]Justin Khim andPo-Ling Loh. Adversarial risk bounds for binary classification via functiontransformation. arXiv preprint arXiv:1810.09519, 2018. 

[10]Dong Yin, KannanRamchandran, and PeterBartlett. Rademacher complexity for adversarially robust generalization. arXivpreprint arXiv:1810.11914, 2018.

[11]Sergey Zagoruyko,Nikos Komodakis.Wide residual networks. arXiv preprint

 arXiv:1605.07146, 2016.

[12]M Tan, QV Le, EfficientNet:Rethinking Model Scaling for Convolutional Neural Networks arXiv preprintarXiv:1905.11946, 2019 -arxiv.org

[13]Colin Wei, Jason D.Lee, Qiang Liu, and TengyuMa. Regularization Matters: Generalization and Optimization of Neural Nets v.s.their Induced Kernel. arXiv e-prints, art.arXiv:1810.05369, Oct2018. 

 


  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值