sklearn多项式回归最优模型选择

最新推荐文章于 2023-08-01 15:34:19 发布

简说Python

最新推荐文章于 2023-08-01 15:34:19 发布

阅读量1.4k

点赞数

牵引小哥 | 作者

牵引小哥讲Python | 来源

1. 验证曲线

训练得分肯定高于验证得分。一般情况下，模型拟合自己接触过的数据，比拟合没接触过的数据效果要好。
使用复杂度较低的模型（高偏差）时，训练数据往往欠拟合，说明模型对训练数据和新数据都缺乏预测能力。
使用复杂度较高的模型（高方差）时，训练数据往往过拟合，说明模型对训练数据预测能力很强，但是对新数据的预测能力很差。
当使用复杂度适中的模型时，验证曲线得分最高。说明在该模型复杂度条件下，偏差与方差达到均衡状态。

2. 学习曲线

特定复杂度的模型对较小的数据集容易过拟合：此时训练得分较高，验证得分较低。
特定复杂度的模型对较大的数据集容易欠拟合：随着数据的增大，训练得分会不断降低，而验证得分会不断升高。
模型的验证集得分永远不会高于训练集得分：两条曲线一直在靠近，但永远不会交叉。

学习曲线最重要的特征是，随着训练样本数量的增加，分数会收敛到定值。因此，一旦你的数据多到使模型得分已经收敛，那么增加更多的训练样本也无济于事！改善模型性能的唯一方法就是换模型（通常也是换成更复杂的模型）。

以上内容来自《Python数据科学手册》



一起学Java




一起学Python

------------------


如果觉得文章有点用的话，请毫不留情地素质三连吧，分享、点赞、在看、收藏，我不挑，因为这将是我写作更多优质文章的最强动力。
往期精选（????猛戳可查看）
1、Python 实现Excel自动化办公《中》
2、Python 实现Excel自动化办公《下》

3、整理了我开始分享学习笔记到现在超过250篇优质文章，涵盖数据分析、爬虫、机器学习等方面，别再说不知道该从哪开始，实战哪里找了