过拟合、欠拟合、梯度消失、梯度爆炸
模型训练中经常出现的两类典型问题:
欠拟合:模型训练过程中无法得到较低的训练误差
过拟合:模型的训练误差远小于它在测试数据集上的误差
实践中,可能需要同时应对欠拟合和过拟合。遇到这种问题可以从模型复杂度和训练数据集大小进行讨论。
梯度消失出现的原因:
在深层网络中,如果激活函数的导数小于1,靠近输入层的参数的梯度因为乘了很多的小于1的数而越来越小,最终就会趋近于0,例如sigmoid函数极易发生这种情况。
梯度爆炸出现的原因:
求解损失函数对参数的偏导数时,如果在梯度的连续乘法中总是乘以很大的绝对值,部分参数的梯度因而变得非常大,导致模型无法收敛。