决策树

最近在网络课上报了一门《机器学习》的课,由于数据挖掘的缘故有不少的接触,真正入门才发现坑点不少,也许总结得还不够深,后面会再慢慢补充。

一、回归树和决策树

决策树可以用来实现回归和分类,用作回归时,则称为回归树;用作决策时,则称为分类树或者决策树。

分类树的观测值是离散的,回归树的观测值必须是数值或者是连续的。

普通回归和回归树是有区别的,回归树拟合出来的曲线不平滑,即两个测试样本互相靠近,在一个小的区间内取到相同的值。普通回归却拟合出来的曲线是平滑的。

二、信息增益、信息增益率和基尼系数

ID3:信息增益是衡量该特征A使得数据集D结果不确定性的下降程度,信息增益越大越好,倾向于多值属性。

C4.5:信息增益率是衡量该特征A下信息分布的均度和广度。信息增益率倾向于少值属性而且分布不均。

CART:基尼系数是熵公式下的一阶展开,衡量的是特征A的不纯度,基尼系数越小越好,基尼的不纯度相当于熵所对应的混乱程度。

三、ID3\C4.5\CART的缺点

ID3

ID3算法使用的是自顶向下的贪婪搜索遍历可能的决策树空间构造,属于局部最优,不一定全局最优。

1、用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值多的属性,容易过拟合

2、抗噪性差

3、递归循环,消耗内存

4、只能处理离散数据

C4.5

1、递归循环,消耗内存

此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行

CART

1、不如线性回归普遍;要求大量训练数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值