sklearn决策树

最新推荐文章于 2022-12-17 22:56:20 发布

ha_haha222

最新推荐文章于 2022-12-17 22:56:20 发布

阅读量365

点赞数

文章标签：决策树算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ha_haha222/article/details/121029089

版权

一.什么是过度拟合数据？
过度拟合(overfitting)的标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h'属于H,使得在训练样例上h的错误率比h'小,但在整个实例分布上h'比h的错误率小,那么就说假设h过度拟合训练数据.

这样的决策树往往会过拟合，它会在训练集上表现很好，在测试集上却表现糟糕

剪枝策略对决策树的影响巨大，正确的剪枝策略是优化决策树算法的核心

二.产生过度拟合数据问题的原因有哪些？

（1）样本里的噪音数据干扰过大，大到模型过分记住了噪音特征，反而忽略了真实的输入输出间的关系；（什么是噪音数据？）

（2）样本抽取错误，包括（但不限于）样本数量太少，抽样方法错误，抽样时没有足够正确考虑业务场景或业务特点，等等导致抽出的样本数据不能有效足够代表业务逻辑或业务场景；

（3）建模时使用了样本中太多无关的输入变量。

overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据.此时我们就叫这个假设出现了overfitting的现象.

（4）当数据中有噪声，或训练样例的数量太少以至于不能产生目标函数的有代表性的采样时

二.决策树参数：

1.diabetes.data是全数据集

diabetes.target是全数据集的标签：

iris.target只有三种类型的数据，即表示iris的标签分为三类，三类标签的名字如下：

2.训练集和测试集丶预测模型评分

一般来说，训练集用来估计模型中的参数，使模型能够反映现实，进而预测未来或其他未知的信息，而测试集用来评估模型的预测性能。

例如：已知1000个小朋友的体重和身高数据，想建立体重与身高的线性回归模型。我们可以用900个小朋友的身高和体重数据（训练集）来拟合模型中的参数，进而预测另外100个小朋友的体重（已知身高数据），预测值和实际值的差别就可以用来衡量模型的预测性能（测试集是100个小朋友的体重和身高）；或者使用1995-2018年的GDP数据建立线性回归模型来预测2019年的GDP数据；

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
sklearn决策树

一.什么是过度拟合数据？过度拟合(overfitting)的标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h'属于H,使得在训练样例上h的错误率比h'小,但在整个实例分布上h'比h的错误率小,那么就说假设h过度拟合训练数据. overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据.此时我们就叫这个假设出现了overfitting的现象.二.#diabetes.data是全数据集的特征，...
复制链接

扫一扫

ha_haha222 CSDN认证博客专家 CSDN认证企业博客

码龄3年

2: 原创

149万+: 周排名

204万+: 总排名

424: 访问

: 等级

21: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

最新文章

python多线程多进程

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。