ICLR 2020 Spotlight！从梯度信噪比来理解深度学习泛化性能 | AI TIME PhD

AITIME论道

于 2020-05-28 19:25:05 发布

阅读量691

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AITIME_HY/article/details/106417159

版权

AI TIME欢迎每一位AI爱好者的加入！

深度学习在诸多应用领域取得了巨大的成功，但是其背后的基础理论确相对有些滞后。与传统浅层学习模型不同，深度学习所得到的深度神经网络（DNNs）层次更为复杂，然而泛化性能却很好！在第二期AI Time PhD ICLR专题分享直播间，毕业于北京大学的刘锦龙博士，从全新的角度和大家探讨了这个问题！一起来看看这篇ICLR顶会焦点论文，是如何从梯度信噪比来理解深度学习的泛化性能为什么这么好吧！

一、深度学习的泛化能力问题

对传统的机器学习浅层模型（比如线性回归、SVM）而言，参数量越大，越容易过拟合，泛化性能也就越差。

相比之下，深度神经网络模型包含巨大的参数量，通常比训练样本数目多得多，按照经典泛化理论，应该会出现严重的过拟合问题。

然而在实践中，在真实数据上训练的深度学习模型通常具有很好泛化性能。很多时候DNN模型越大，泛化效果可能会越好。传统的泛化理论无法解释其中机理！

二、两个定义

a)

One-Step Generalization Ratio

一步泛化比例 (OSGR)：在梯度下降过程的每一步迭代中，测试集的loss下降和训练集的loss下降的期望值的比值。该指标用于刻画梯度下降法训练过程中的泛化性能。

一般测试集的loss下降比训练集的loss下降更慢，意味着每一步迭代中，这个比值应该小于1。OSGR越接近1，泛化性能越好，反之则越差。

上图分别为OSGR值为0、0~1以及1的情况。

OSGR=0时，t

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ICLR 2020 Spotlight！从梯度信噪比来理解深度学习泛化性能 | AI TIME PhD

AI TIME欢迎每一位AI爱好者的加入！深度学习在诸多应用领域取得了巨大的成功，但是其背后的基础理论确相对有些滞后。与传统浅层学习模型不同，深度学习所得到的深度神经网络（DNNs）层次...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。