深度神经网络往往带有大量的参数,但依然表现出很强的泛化能力(指训练好的模型在未见过的数据上的表现)。
深度神经网络为何会拥有如此强的泛化能力?最近,两篇论文引起了广泛思考。
神经网络通过记忆学习
《Understanding deep learning requires rethinking generalization》一文通过实验得出初步结论:
神经网络极易记忆训练数据,其良好的泛化能力很可能与此记忆有关。
传统观点
传统方法认为模型对训练数据的记忆是导致泛化能力差的重要原因,因此往往通过各种各样的正则化手段使得模型“简约”,从而打破这种记忆。
论文观点
深度神经网络极易记忆数据,常用的正则化手段对于模型泛化能力的提高不是必要的而且也不足以控制泛化误差。深度神经网络发挥作用时可能很好的利用了其记忆能力。
论文实验
论文通过大量试验挑战了传统机器学习的观点。
实验一:如下图