模型选择
如何发现可以泛化的模型是机器学习的根本问题
- 将模型在训练数据上拟合得比潜在分布中更加接近的现象称为过拟合,用于对抗过拟合技术成为正则化
训练误差和泛化误差
- 训练误差是指我们的模型在训练数据集熵计算得到的误差
- 泛化误差是我们将模型应用在同样从原始样本的分布中抽取的无限多的数据样本时,我们模型误差的期望
模型复杂性
影响模型泛化的因素:
- 可调整参数的数量。当可调整参数的数量(自由度)很大时,模型往往很容易过拟合
- 参数参用的值。当权重的取之范围较大时,模型容易过拟合
- 训练样本的数量。即使你的模型很简单,也很容易过拟合只包含一两个样本的数据集。而过拟合一个有一个数百万样本的数据集则需要一个及其灵活的模型
模型选择
在机器学习中,在评估几个候选模型后最终选择的模型,该过程较模型选择。有时候需要比较不同超参数设置下的同一类模型。
验证集
- 测试数据集只能使用一次
- 数据通常分为三分:训练集,测试集和验证集。
K则交叉验证
- 将原始数据集分为K个不重叠的子集,然后执行K次模型训练和验证,每次在K-1个子集上进行训练,并在剩余的一个子集(在该论中没有用于训练的子集)上进行验证;最后通过对k次实验的结果去平均来估计训练和验证的误差
欠拟合 过拟合
-
训练误差和验证误差都和严重,但它们仅有一点差距;如果模型不能不能降低训练误差,这可能是模型过于简单;由于训练和验证误差之间的泛化误差很小,则很有可能一个更复杂的模型可以降低训练误差,这种现象成为欠拟合
-
当训练误差明显低于验证误差,这表示过拟合
-
模型的复杂性
-
数据集大小,训练数据集中的样本越少就越可能遇到过拟合