【泛化误差论文必看】

静静喜欢大白

已于 2022-04-07 11:13:48 修改

阅读量993

点赞数

分类专栏： # 泛化文章标签：泛化

于 2020-07-14 16:43:01 首次发布

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc0MTMwMA==&mid=2247501907&idx=2&sn=17d494b83fc4d4da2d88b2a3acd536ba&chksm=e8d1bf88dfa6369efc0434cf2f1d73b63c5654f6575cb952192086fa346a83c9449582d78e54&mpshare=1&scene=23&srcid=07144IOvg91cU3Pgs97QHv3f&sharer_sharetim

版权

泛化专栏收录该内容

8 篇文章 0 订阅

订阅专栏

目录

2、论文必读

2.1、3篇领域经典

1）Understanding Deep Learning Requires Rethinking Generalization. (ICLR 2017)

2）Train faster, generalize better Stability of stochastic gradient descent. (ICML 2016)

3）Neural Tangent Kernel Convergence and Generalization in Neural Networks.

2.2、 3篇领域前沿

1）Fine-Grained Analysis of Optimization and Generalization for Overparameterized Two-Layer Neural Networks.（ICML 2019）

2）Sharper Bounds for Uniformly Stable Algorithms (COLT 2020)

3）Gradient Descent Maximizes the Margin of Homogeneous Neural Networks (ICLR 2020)

参考人工智能前沿讲习的泛化误差专题

1、背景

训练集往往只是数据总体的一部分，无法包含所有可能的情况，训练出的学习算法在训练集和非训练集上的表现会是不一样的，我们使用泛化误差来度量这一差距，这也是机器学习理论最重要的问题之一。

2、论文必读

2.1、3篇领域经典

1）Understanding Deep Learning Requires Rethinking Generalization. (ICLR 2017)

ICLR 2017的最佳会议论文。作者通过一些很有意思的实验（比如random label实验）来试图反驳之前的机器学习理论，认为之前的一些泛化上界并不能解释深度学习的成功。很有趣的一个文章，也被后来大部分做泛化的工作引用了。

2）Train faster, generalize better Stability of stochastic gradient descent. (ICML 2016)

比较经典的关于SGD的泛化误差的论文。使用的是一个经典理论框架叫做algorithm stability。其结论为训练越快，泛化越好。

3）Neural Tangent Kernel Convergence and Generalization in Neural Networks.

本文提出神经正切核（NTK）。NTK算是一个比较大的理论突破，其建立了over-parameterized neural network与Kernel Method的关系。而kernel相对于神经网络的复杂函数来说，性质更清晰一些，说不定更容易分析一些。后续有很多工作基于NTK，比如可以证明梯度下降能找到深度神经网路的全局最优解等等。

2.2、 3篇领域前沿

1）Fine-Grained Analysis of Optimization and Generalization for Overparameterized Two-Layer Neural Networks.（ICML 2019）

本文精细地分析了两层 (超级宽) 神经网络的优化和泛化。结论非常有意义。

2）Sharper Bounds for Uniformly Stable Algorithms (COLT 2020)

本文把传统的uniform stability的high probability bound基本做到了最优。（理论研究）

3）Gradient Descent Maximizes the Margin of Homogeneous Neural Networks (ICLR 2020)

本文的理论分析表明，离散的梯度下降和连续的梯度流在最小化齐次神经网络的逻辑损失或交叉熵损失的过程中，也会逐渐增大标准化分类间隔的一个光滑版变种。经过足够长的训练，标准化分类间隔及其光滑版变种还将收敛到同一极限，并且该极限和一个分类间隔最大化问题的KKT点处值相等。本文的结果极大地推广了前人在线性网络上得到的类似结果；相比于前人在齐次网络上的研究，也在使用的假设更弱的情况下给出了更量化的结果。

2.3 其他

静静喜欢大白

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。