【2】机器学习实战 第三章 决策树的构造

1.数据类型

标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)


数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等 (数值型目标变量主要用于回归分析)


本章的决策树算法是ID3,还有其他的决策树算法例如CART,C4.,他们有各自的优缺点。

本章的决策树算法适合用来处理标称型数据,尽管通过量化的方法将数值型数据转化成标称型数据来解决数值型数据的问题,但是如果存在太多的特征划分,ID3方法还会有其他问题。

2.对熵的理解

决策树分类选择最优的方案划分数据集,选择特征的方法是找到使数据的熵最大的方法。我的理解:就是要找到一个分类中的数据都属于一个分类的效果,当这些数据都属于一个分类时所含信息量比较大,这一点也可以从信息熵的公式中看出。

3.采用递归的方法构建决策树,实用字典存储树节点信息。使用matplotlib的注解功能把得到的树结构用流程图进行表示。最后还可以利用pickle模块把事先训练好的树结构存储到硬盘中,当需要使用的时候再从硬盘中读出即可。

4.缺点:过度匹配(overfitting)。过多数据集划分可能导致overfitting。可以通过裁剪掉一些不必要的叶子节点来避免。

优点:计算复杂度不高,输出结果容易理解,对中间值缺失不敏感?可以处理不相关特征数据。


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值