sklearn决策树

一.什么是过度拟合数据?
    过度拟合(overfitting)的标准定义:给定一个假设空间H,一个假设h属于H,如果存在其他的假设h'属于H,使得在训练样例上h的错误率比h'小,但在整个实例分布上h'比h的错误率小,那么就说假设h过度拟合训练数据.

 

这样的决策树 往往会过拟合,它会在训练集上表现很好,在测试集上却表现糟糕

剪枝策略对决策树的影响巨大,正确的剪枝策略是优化 决策树算法的核心

二.产生过度拟合数据问题的原因有哪些?
 

   (1)样本里的噪音数据干扰过大,大到模型过分记住了噪音特征,反而忽略了真实的输入输出间的关系;(什么是噪音数据?)

   (2)样本抽取错误,包括(但不限于)样本数量太少,抽样方法错误,抽样时没有足够正确考虑业务场景或业务特点,等等导致抽出的样本数据不能有效足够代表业务逻辑或业务场景;

   (3)建模时使用了样本中太多无关的输入变量。

   overfittingt是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在训练数据外的数据集上却不能很好的拟合数据.此时我们就叫这个假设出现了overfitting的现象.

        (4)当数据中有噪声,或训练样例的数量太少以至于不能产生目标函数的有代表性的采样时

二.决策树参数:

1.diabetes.data是全数据集

diabetes.target是全数据集的标签:

 iris.target只有三种类型的数据,即表示iris的标签分为三类,三类标签的名字如下:

2.训练集和测试集丶预测模型评分

一般来说,训练集用来估计模型中的参数,使模型能够反映现实,进而预测未来或其他未知的信息,而测试集用来评估模型的预测性能。

例如:已知1000个小朋友的体重和身高数据,想建立体重与身高的线性回归模型。我们可以用900个小朋友的身高和体重数据(训练集)来拟合模型中的参数,进而预测另外100个小朋友的体重(已知身高数据),预测值和实际值的差别就可以用来衡量模型的预测性能(测试集是100个小朋友的体重和身高);或者使用1995-2018年的GDP数据建立线性回归模型来预测2019年的GDP数据;



 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值