Understanding deep learning requires rethinking generalization (zhang. 2017)
- 作者做了一个测试,用随机label标注数据,发现网络对训练集仍有效果,(网络具有强大的能力可以“记住”训练数据)
- 梯度下降(SGD)具有隐性的正则化效果,原因未知
- 浅层网络也能有强大的表达能力。
- 模型本身已经足够去表达训练数据,即便没有正则化。
On the importance of single directions for generalization
文章内容:
- 高选择性的unit(单元)可能会对网络有害,网络不应该过分依赖某一部分
- 增强unit之间的交互有利于网络的泛化性
- 那些“记住”训练数据的网络 更依赖 单一的通路 single directions(网络通路),这些网络往往泛化性差,这也可以解释dropout可以增强泛化性的原因
- 以上由ablation experiments结论得出
Sharp Minima can generalize for deep nets
- 文章指出,通常认为flat的最小值更加平滑,容易得到好的泛化性能,这里指出sharp minima也可能得到好的泛化性能
Over-parameterization improves generalization in the XOR detection problem
- under-writing