机器学习的根本问题是优化和泛化之间的对立。优化是调节模型以在训练数据上得到最佳性能;泛化是指训练好的模型在前所未见的数据上的性能好坏,深度学习真正的挑战就在于泛化。
模型会经历从欠拟合到过拟合的过程。训练开始时,优化和泛化是相关的,一开始训练数据上的损失越小,测试数据上的损失也越小,此时网络还没有对训练数据中所有相关模式建模。而在训练数据上迭代一定次数后,验证指标从不变到变差,模型学习仅和训练数据有关的模式,而这对于新数据而言是错误的或无关紧要的,这即是模型过拟合,泛化能力也降低。
过拟合问题存在于所有机器学习问题,学习如何处理过拟合对掌握机器学习至关重要。
为防止神经网络过拟合的问题,会采用一些常见的方法,包括获取更多的训练数据,减小网络容量,添加权重正则化,添加dropout正则化等。