只有模型真正发现了一种泛化模式,才会作出有效预测
如何发现可以泛化的模式是机器学习的根本问题
将模型在训练数据上拟合得比在潜在分布中更接近的现象称为过拟合,用于对抗过拟合的技术称为正则化
有时会发现,在实验中,调整模型结构或超参数,会发现,如果有足够多的神经元、层数和训练迭代周期,模型最终可以在训练集上到达完美的精度,此后四测试集上的准确性却下降
训练误差和泛化误差
为了进一步了解上述现象,需要了解训练误差和泛化误差,训练误差是指模型在训练数据集上计算得到的误差。泛化误差是指将模型应用在同样从原始样本的分布中抽取的无限多的数据样本时,我们模型误差的期望
我们永远不能准确地计算出泛化误差,在实际中,我们只能通过将模型应用于一个独立的测试集来估计泛化误差,该测试集由随机选取的、未曾在训练集中出现的数据样本构成
影响模型泛化的因素:
- 可调整参数的数量。当可调整参数的数量(有时称为自由度)很大时,模型往往更容易过拟合。
- 参数采用的值。当权重的取值范围较大时,模型可能更容易过拟合。
- 训练样本的数量。即使你的模型很简单,也很容易过拟合只包含一两个样本的数据集。而过拟合一个有数百万个样本的数据集则需要一个极其灵活的模型。
欠拟合和过拟合
影响因素:数据集的大小、模型的复杂性