ICLR 2020 Spotlight!从梯度信噪比来理解深度学习泛化性能 | AI TIME PhD

AI TIME欢迎每一位AI爱好者的加入!

深度学习在诸多应用领域取得了巨大的成功,但是其背后的基础理论确相对有些滞后。与传统浅层学习模型不同,深度学习所得到的深度神经网络(DNNs)层次更为复杂,然而泛化性能却很好!在第二期AI Time PhD ICLR专题分享直播间,毕业于北京大学的刘锦龙博士,从全新的角度和大家探讨了这个问题!一起来看看这篇ICLR顶会焦点论文,是如何从梯度信噪比来理解深度学习的泛化性能为什么这么好吧!

 

一、深度学习的泛化能力问题

对传统的机器学习浅层模型(比如线性回归、SVM)而言,参数量越大,越容易过拟合,泛化性能也就越差。

相比之下,深度神经网络模型包含巨大的参数量, 通常比训练样本数目多得多,按照经典泛化理论,应该会出现严重的过拟合问题。

然而在实践中,在真实数据上训练的深度学习模型通常具有很好泛化性能。很多时候DNN模型越大,泛化效果可能会越好。传统的泛化理论无法解释其中机理!

二、两个定义

a)

One-Step Generalization Ratio

一步泛化比例 (OSGR):在梯度下降过程的每一步迭代中,测试集的loss下降和训练集的loss下降的期望值的比值。该指标用于刻画梯度下降法训练过程中的泛化性能

一般测试集的loss下降比训练集的loss下降更慢,意味着每一步迭代中,这个比值应该小于1。OSGR越接近1,泛化性能越好,反之则越差。

上图分别为OSGR值为0、0~1以及1的情况。

OSGR=0时,t

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值