论文笔记 understanding deep learning requires rethinking generalization

最新推荐文章于 2023-05-19 13:22:36 发布

AI之路

最新推荐文章于 2023-05-19 13:22:36 发布

阅读量7k

点赞数 4

分类专栏：深度学习

本文链接：https://blog.csdn.net/u014380165/article/details/71188924

版权

本文探讨了深度学习模型在面对随机标签和噪声时仍能实现零训练误差的现象，揭示了模型的强大学习能力。尽管显示的正则化如权重衰减和dropout并未充分解释泛化误差，但作者提出随机梯度下降可能是隐式正则化的一种形式。研究表明，即使没有正则化，网络仍能表现出良好的泛化性能，挑战了传统关于正则化的理解。

摘要由CSDN通过智能技术生成

 
 前段时间召开的ICLR2017的最佳论文之一：understanding deep learning requires rethinking generalization。特来拜读，做了点笔记和大家分享，基本按照文章的先后顺序。 

 
 1.1 our contributions 

 
 randomization tests 随机测试： 

 
 首先作者做了一个随机测试，训练数据中的真实labels用随机labels代替进行训练，实验结果显示训练误差几乎为0，但是测试误差却不低，因为训练labels和测试labels之间没有关系。这个发现总结为：深度神经网络很容易拟合随机标签，换句话说模型是否有效跟你的标签对错没有太大关系（仅限训练误差）。 

 
 在随机label情况下，作者认为神经网络拥有effective capacity去有效记住整个数据集。 

 
 接下来作者在上一个随机测试的基础上用完全随机的像素点代替原来的真实图像进行训练，发现卷积神经网络依然可以拟合数据且训练误差为0，这说明网络可以拟合随机噪声。进一步，作者在无噪声和有噪声图像之间生成插值图像，加大了图像的随机性，发现随着噪声水平的提升，模型的泛化能力稳定地下降，因为模型虽然可以拟合数据中残留的信息，但同时也在极力拟合噪声。