泛化
过拟合
将模型在训练数据上拟合得⽐在潜在分布中更接近的现象称为过拟合(overfitting),⽤于对抗过拟合的技术 称为正则化(regularization)。
训练误差和泛化误差
训练误差(training error)是指,我们的模 型在训练数据集上计算得到的误差。泛化误差(generalization error)是指,当我们将模型应⽤在同样从原 始样本的分布中抽取的⽆限多的数据样本时,我们模型误差的期望。
独立同分布假设
模型复杂性
当我们有更复杂的模型和更少的 样本时,我们预计训练误差会下降,但泛化误差会增⼤。
影响泛化的因素
- 可调整参数的数量。当可调整参数的数量(有时称为⾃由度)很⼤时,模型往往更容易过拟合。
- 参数采⽤的值。当权重的取值范围较⼤时,模型可能更容易过拟合。
- 训练样本的数量。即使你的模型很简单,也很容易过拟合只包含⼀两个样本的数据集。而过拟合⼀个有 数百万个样本的数据集则需要⼀个极其灵活的模型。
K折交叉验证
欠拟合和过拟合
训练误差和验证误差都很严重,如果模型不能降低训练误差,则欠拟合
当我们的训练误差明显低于验证误差,则过拟合
数据集大小
越多的数据,越能拟合一个更复杂的模型,复杂的模型可能是有益的,但如果没有足够的数据,简单的模型可能更有用