前段时间召开的ICLR2017的最佳论文之一:understanding deep learning requires rethinking generalization。特来拜读,做了点笔记和大家分享,基本按照文章的先后顺序。
1.1 our contributions
randomization tests 随机测试:
首先作者做了一个随机测试,训练数据中的真实labels用随机labels代替进行训练,实验结果显示训练误差几乎为0,但是测试误差却不低,因为训练labels和测试labels之间没有关系。这个发现总结为:深度神经网络很容易拟合随机标签,换句话说模型是否有效跟你的标签对错没有太大关系(仅限训练误差)。
在随机label情况下,作者认为神经网络拥有effective capacity去有效记住整个数据集。
接下来作者在上一个随机测试的基础上用完全随机的像素点代替原来的真实图像进行训练,发现卷积神经网络依然可以拟合数据且训练误差为0,这说明网络可以拟合随机噪声。进一步,作者在无噪声和有噪声图像之间生成插值图像,加大了图像的随机性,发现随着噪声水平的提升,模型的泛化能力稳定地下降,因为模型虽然可以拟合数据中残留的信息,但同时也在极力拟合噪声。