问题的复杂度:输入与输出关联最好的未知函数
算法的复杂度:用于从具体事例中归纳的未知底层学习映射函数的算法
评价多少数据量才能训练好模型?
1.非线性模型需要的数据量比线性模型多;
2.交叉验证估计一个模型的泛化能力;
3.根据学习曲线判断。
学习曲线
横轴代表训练数据集大小,随着数据的增加,纵轴的准确率随之变化,借此估计模型是否训练完成。
欠拟合学习曲线绘制: 左图
首先,我们观察训练集的表现:当训练集只有一两个样本的时候,模型能够非常好的拟合它们,这也是为什么曲线是从零开始的原因。但是当加入了一些新的样本的时候,训练集上的拟合程度变得难以接受,出现这种情况有两个原因,一是因为数据中含有噪声,另一个是数据根本不是线性的。因此随着数据规模的增大,误差也会一直增大,直到达到高原地带并趋于稳定,在之后,继续加入新的样本,模型的平均误差不会变得更好或者更差。我们继续来看模型在验证集上的表现,当以非常少的样本去训练时,模型不能恰当的泛化,也就是为什么验证误差一开始是非常大的。当训练样本变多的到时候,模型学习的东西变多,验证误差开始缓慢的下降。但是一条直线不可能很好的拟合这些数据,因此最后误差会到达在一个高原地带并趋于稳定,最后和训练集的曲线非常接近。
当模型表现出欠拟合特性时,