机器学习笔记(五)决策树

决策树

一、决策树原理

1.决策树:从训练数据中学习得出一个树状结构的模型。
决策树属于判别模型
2.决策树是一种树状结构,通过作出一系列决策来对数据进行划分,这类似于针对一系列问题进行选择。
3.决策树的决策过程就是从根节点开始,测试待分类项中对应的特征属性,并按照其值选择输出分支,直到叶子节点,将叶子节点的存放的类别作为决策结果。
4.决策树算法是一种归纳分类算法,它通过对训练数据集的学习,挖掘出有用的规则,用于对新数据进行预测。
5.决策树算法属于监督学习方法。
6.决策树归纳的基本算法是贪心算法,自顶向下来构建决策树。
7.贪心算法:在每一步选择中都采取在当前状态下最好/最优的选择。
8.在决策树的生成过程中,分割法即属性选择的度量是关键。


二、决策树的特点

优点:
1.推理过程容易理解,计算简单,可解释性强。
2.比较适合处理有缺失属性的样本。
3.可自动忽略目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量的数目提供参考。
缺点:
1.容易造成过拟合,需要采用剪枝操作。
2.忽略了数据之间的相关性。
3.对于各类别样本数量不一致的数据,信息增益会偏向于那些更多数值的特征。

三、决策树的算法

决策树的三种基本类型
建立决策树主要有以下三种算法:ID3(IterativeDichotomiser)、C4.5、CART(Classification And Regression Tree)
在这里插入图片描述

ID3算法

ID3算法的核心是:信息熵,期望信息越小,信息熵越大,样本纯度越低。
ID3 算法是以信息论为基础,以信息增益为衡量标准,从而实现对数据的归纳分类。
ID3 算法计算每个属性的信息增益,并选取具有最高增益的属性作为给定的测试属性。
算法步骤

  1. 初始化特征集合和数据集合;
  2. 计算数据集合信息熵和所有特征的条件熵,选择信息增益最大的特征作为当
    前决策节点;
  3. 更新数据集合和特征集合(删除上一步使用的特征,并按照特征值来划分不
    同分支的数据集合);
  4. 重复 2,3 两步,若子集值包含单一特征,则为分支叶子节点。

步骤2中求解信息熵的公式如下:
在这里插入图片描述
条件熵公式如下:
在这里插入图片描述
H(Di)之前所求的信息熵,Di为对应属性中的数量

信息增益公式如下:
在这里插入图片描述
总结: ID3算法的缺点
1、ID3没有剪枝策略,容易过拟合;
2、信息增益准则对可取值数目较多的特征有所偏好,类似“编号”的特征,其信息增益接近于1;
3、只能用于处理离散分布的特征,没有考虑缺失值。

C4.5算法

C4.5算法是对ID3算法的改进。
1.用信息增益率来选择属性。ID3选择属性用的是子树的信息增益,而C4.5用的是信息增益率。
2.在决策树构造过程中进行剪枝。
对非离散数据也能处理。
3.能够对不完整数据进行处理。
信息增益率:
在这里插入图片描述
C4.5的剪枝
过拟合的原因:
为了尽可能正确分类训练样本,节点的划分过程会不断重复直到不能再分,这样就可能对训练样本学习的“太好”了,把训练样本的一些特点当做所有数据都具有的一般性质,从而导致过拟合。剪枝的基本策略有“预剪枝”(prepruning)和“后剪枝”(post-pruning)通过剪枝处理去掉一些分支来降低过拟合的风险。

预剪枝
预剪枝不仅可以降低过拟合的风险而且还可以减少训练时间,但另一方面它是基于“贪心”策略,会带来欠拟合风险。
剪枝策略
在节点划分前来确定是否继续增长,及早停止增长
主要方法有:
• 节点内数据样本低于某一阈值;
• 所有节点特征都已分裂;
• 节点划分前准确率比划分后准确率高

后剪枝
在已经生成的决策树上进行剪枝,从而得到简化版的剪枝决策树。
后剪枝决策树通常比预剪枝决策树保留了更多的分支。一般情况下,后剪枝的欠拟合风险更小,泛化性能往往优于预剪枝决策树。
C4.5的缺点
剪枝策略可以再优化;
• C4.5 用的是多叉树,用二叉树效率更高;
• C4.5 只能用于分类;
• C4.5 使用的熵模型拥有大量耗时的对数运算,连续值还有排序运算;
• C4.5 在构造树的过程中,对数值属性值需要按照其大小进行排序,从中选择一个分割点,所以只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时,程序无法运行。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值