大批量深度学习为何泛化效果差?西北大学联合英特尔给出了答案

转载 2017年05月27日 21:28:29

雷锋网AI科技评论按:ICLR 2017 于4月24-26日在法国土伦举行,雷锋网AI科技评论的编辑们也于法国带来一线报道。在这个深度学习会议举办之际,雷锋网(公众号:雷锋网)也围绕会议议程及论文介绍展开一系列的覆盖和专题报道,敬请期待。

大批量深度学习为何泛化效果差?西北大学联合英特尔给出了答案 | ICLR 2017

由西北大学(Northwestern U)的Nitish Shirish Keskar和Jorge Nocedal和英特尔的Dheevatsa Mudigere,Mikhail Smelyanskiy以及Ping Tak Peter Tang近期发表的论文《ON LARGE-BATCH TRAINING FOR DEEP LEARNING: GENERALIZATION GAP AND SHARP MINIMA》,当选 ICLR 2017的oral paper。文章描述了在传统神经网络训练时,大的 batch size(如,超过512)会导致网络模型泛化能力下降的问题,并通过实验证明其原因是泛化误差和尖锐收敛,并提出了一些解决方案。

很多深度学习过程中都在算法上应用了随机梯度下降的方法或随机梯度下降的衍生方法。但是这种方法一般适用于小批量(样本数量在32-512之间)的计算。观察数据显示,当大批量计算时(样品数量超过512),如果用泛化能力作为标准的话,模型的计算质量就会下降。Intel与西北大学研究的这篇文章,就这个问题进行了讨论,并提出了大量的证据证明大批量的方法会倾向于将模型和函数归一化,从而导致尖锐收敛,并最终生成了比较差的泛化效果。

论文分析了在小批量情况下结果不同的原因,并提出这种不同来自于在梯度预测时内部噪声的差异。如下图片,在这个案例中,随机的选择一组小批量(SB)和大批量(LB)的最小值,可以发现,LB极小值比SB极小值更加尖锐。因此,泛化能力则更低一些。同时,论文还就减小泛化间隙的问题提出了在大批量计算中适用的几种策略,开放性的预留了未来的讨论点,包括在大批量计算中可进行的尖锐收敛和可能的优化方案。

大批量深度学习为何泛化效果差?西北大学联合英特尔给出了答案 | ICLR 2017

论文链接:https://openreview.net/pdf?id=H1oyRlYgg

原文链接:https://openreview.net/forum?id=H1oyRlYgg&noteId=H1oyRlYgg 

ICLR评论:

ICLR委员会最终决定:

对这篇论文的评论普遍非常正面,这说明了这篇论文映射了一个在工程应用领域普遍存在的问题。我相信整个研究环境会通过阅读这篇论文得到一些建设性的解决问题的新思路。

决定:接受(Oral)

大批量训练的分析

评分:8分,Top 50%,明确接受

评论:这是一篇很有趣的文章,就为什么大批量训练效果变差的原因进行了分析,这对整个深度学习的社区有着重要的意义。

很好的文章

评论:我想这篇文章明确了一点,大批量计算时,泛化效果就会变差。并通过对比分析大批量和小批量的失真函数进行了很好的阐释。

文章不够新颖但是实验数据非常有价值

评分:10分,Top 5%,这是一篇研讨会文章

很好的文章:

评分:6分,刚好及格

评价:我觉得这篇文章还不错,很有趣也很有用,但是如果增加更多的论证,比如增加一些高斯噪声梯度的分析。

吴恩达Deeplearning.ai 全部课程学习心得分享

本文作者,加拿大国家银行首席分析师 Ryan Shrott 完成了迄今为止(2017 年 10 月 25 日)吴恩达在 Coursera 上发布的所有深度学习课程,并为我们提供了课程解读。 ...
  • Uwr44UOuQcNsUQb60zk2
  • Uwr44UOuQcNsUQb60zk2
  • 2017年10月28日 06:43
  • 150

Nature:深度学习的现在和未来:DeepLearning、无监督学习、NLP

Nature:深度学习的现在和未来:DeepLearning、无监督学习、NLP 【编者按】三大牛Yann LeCun、Yoshua Bengio和Geoffrey ...
  • u012108367
  • u012108367
  • 2017年04月17日 16:01
  • 2033

思考深度学习的泛化能力

神经网络通过记忆学习 传统观点 论文观点 论文实验 神经网络 不 通过记忆学习 参考资料深度神经网络往往带有大量的参数,但依然表现出很强的泛化能力(指训练好的模型在未见过的数据上的表现)。深度神经网络...
  • shuzfan
  • shuzfan
  • 2017年02月20日 17:12
  • 6054

理解深度学习需要重新思考泛化

《UNDERSTANDING DEEP LEARNING REQUIRES RETHINKING GENERALIZATION》翻译,有翻译不准确之处,尽请指点。...
  • u010229231
  • u010229231
  • 2017年06月02日 16:12
  • 851

深度学习网络调参技巧

本文转载自:https://zhuanlan.zhihu.com/p/24720954?utm_source=zhihu&utm_medium=social 转载请注明:炼丹实验室 ...
  • anshiquanshu
  • anshiquanshu
  • 2017年09月11日 22:29
  • 392

【迁移学习】简述迁移学习在深度学习中的应用

选自MachineLearningMastery作者:Jason Brownlee机器之心编译参与:Nurhachu Null、刘晓坤本文介绍了迁移学习的基本概念,以及该方法在深度学习中的应用,引导构...
  • np4rHI455vg29y2
  • np4rHI455vg29y2
  • 2018年01月10日 00:00
  • 474

浅谈深度学习尝常识:泛化、过拟合、Dropout、Attention

刚开始接触深度学习,难免有很多名词概念的陌生、不清晰;当然,如果要快速考核一个人的深度学习”深度“,尤其是在面试过程中,同行会问到,有没有出现过拟合呀?怎么解决呀?这些问题看起来很高深,或者需要很深厚...
  • Errors_In_Life
  • Errors_In_Life
  • 2017年04月19日 23:46
  • 1448

论文学习1----理解深度学习需要重新思考泛化Understanding deep learning requires rethinking generalization

——论文地址:Understanding deep learning requires rethinking generalization1、有关新闻1.1 新闻一:参考1:机器之心尽管深度人工神经网...
  • liuxiao214
  • liuxiao214
  • 2017年06月14日 11:13
  • 744

华为李航:NLP 有 5 个基本问题,深度学习有4个做得很好

对于自然语言理解,有两种定义。第一种是计算机能够将所说的语言映射到计算机内部表示;另一种是基于行为的,你说了一句话,计算机做出了相应行为,就认为计算机理解了自然语言。后者的定义,更广为采用。 为...
  • AMDS123
  • AMDS123
  • 2017年04月19日 19:02
  • 8083

Nature:深度学习的现在和未来:DeepLearning、无监督学习、NLP

最新的《Nature》杂志专门为“人工智能 + 机器人”开辟了一个专题 ,发表多篇相关论文,其中包括了LeCun、Bengio和Hinton首次合作的这篇综述文章“Deep Learning”。本文为...
  • q375010308
  • q375010308
  • 2015年08月13日 16:28
  • 17266
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:大批量深度学习为何泛化效果差?西北大学联合英特尔给出了答案
举报原因:
原因补充:

(最多只允许输入30个字)