论文在这里
发表在ICLR2017
论文
要解决的问题
为什么神经网络可以泛化
statistical learning theory has proposed a number of different complexity measures that are capable of controlling generalization error. These include
- [VC dimension]–Vladimir N. Vapnik. Statistical Learning Theory. Adaptive and learning systems for signal processing, communications, and control. Wiley, 1998;
- Rademacher complexity–Peter L Bartlett and Shahar Mendelson. Rademacher and gaussian complexities: risk bounds and structural results. Journal of Machine Learning Research, 3:463–482, March 2003;
- [Uniform stability]–Mukherjee et al., 2006; Bousquet & Elisseeff, 2002; Poggio et al., 2004). M.
Intuition
Deep neural networks easily fit random labels. 理解神经网络的能力。VC维、Rademacher复杂度不能完全解释为什么能拟合随机噪声标签,Uniform stability不太好利用。
随机化实验
把数据标签替换成随机噪声,这样标签和输入样本没有关系。但是网络仍然可以收敛。破坏图像(添加随机噪声甚至整个图换成噪声)模型还可以拟合标签。
作者又做了实验,发现正则化不是提升泛化能力的根本原因。因为加不加正则化,泛化能力差不太多(see Figure 2 in the paper)。
总结
这个论文最大的亮点是设计的随机化实验。说明模型有能力直接“记住”训练数据,那网络越深越容易陷入这个现象,因为模型参数多了。