向Andrew Ng的机器学习课程致敬
使用机器学习的建议
这章主要讨论如何优化算法。
- 将数据集划分为3小类数据集:训练集,验证集,测试集
- 使用训练集来训练模型,使用验证集来选择参数,使用测试集来验证效果
训练错误与验证错误
先来看看模型的训练错误率与验证集错误率的关系
如下图所示:
以线性回归模型为例,随着特征值的幂越来越高,训练集的错误率越来越低,而验证集的错误率则有一个先下降后上升的过程。先下降是因为之前是欠拟合(bias),后上升是因为过拟合(variance)。
错误率与正则化参数
再来看加上正则项后,错误率与正则化参数的关系,如下图所示:
学习曲线
下面是欠拟合与过拟合两种场景的错误率曲线图,欠拟合时,训练错误率与验证错误率都很高。
过拟合则训练错误率比较小,但是验证错误率会比较高。