原创作者:牵引小哥(同名B站Up主)
微信公众号:牵引小哥讲Python
注:转载或复制请注明出处——牵引小哥
1. 验证曲线
训练得分肯定高于验证得分。一般情况下,模型拟合自己接触过的数据,比拟合没接触过的数据效果要好。
使用
复杂度较低
的模型(高偏差)时,训练数据往往欠拟合
,说明模型对训练数据和新数据都缺乏预测能力。使用
复杂度较高
的模型(高方差)时,训练数据往往过拟合
,说明模型对训练数据预测能力很强,但是对新数据的预测能力很差。当使用复杂度适中的模型时,
验证曲线得分最高
。说明在该模型复杂度条件下,偏差与方差达到均衡状态。
2. 学习曲线
特定复杂度的模型对
较小的数据集
容易过拟合:此时训练得分较高,验证得分较低。特定复杂度的模型对
较大的数据集
容易欠拟合:随着数据的增大,训练得分会不断降低,而验证得分会不断升高。模型的验证集得分永远不会高于训练集得分:两条曲线一直在靠近,但永远不会交叉。
学习曲线最重要的特征是,随着训练样本数量的增加,分数会收敛到定值。因此,一旦你的数据多到使模型得分已经收敛, 那么增加更多的训练样本也无济于事!改善模型性能的唯一方法就是换模型(通常也是换成更复杂的模型)。
以上内容来自《Python数据科学手册》
- end -