机器学习:决策树总结

决策树是一种基于树状结构进行决策的策略,是一种有监督的机器学习算法

1、决策树优缺点:

1.1、优点
  简单易懂、易解释
  既可以处理离散值也可以处理连续值(ID3只能处理离散值)
  可用于寻找重要特征变量
  不需要提前归一化预处理
  使用决策树预测的代价是 O ( l o g 2 m ) O(log_2m) O(log2m), m为样本数。
1.2、缺点
  决策树会因样本发生一点点改动,就导致树结构的剧烈改变。这个可以通过集成学习之类的方法解决。
  容易过拟合。可以通过设置节点最少样本数量和限制决策树深度来优化。
  有些比较复杂的关系,决策树很难学习,比如异或。这个就没有办法了,一般这种关系可以换神经网络分类方法来解决。
  每一个节点的选择都是贪婪算法,不能保证全局最优解。可以通过集成学习之类的方法来改善。
  如果某些特征(label)的样本比例过大,生成决策树容易偏向于这些特征。这个可以通过调节样本权重来改善。

2、构造决策树的两大核心问题

2.1、如何选出最佳分支(特征)与最佳节点(特征节点)
  采用贪心算法,每一步都选择最好的节点分支(以局部最优策略选择),而非死磕全局最优
2.2、决策树剪枝策略(防过拟合)
  决策树过拟合风险很大,理论上可以将类别完全分开,即在训练样本上实现100%的准确率
  剪枝策略:
    预剪枝(贪心算法思路):边建立决策树边进行剪枝的操作
      控制树的深度。 样本数和节点数
      叶子节点个数,叶子节点样本数,信息增益量
    后剪枝:完成决策树后进行剪枝操作,实用
      通过一定的衡量标准
      叶子节点越多,损失越大
  后剪枝比预剪枝更为优越,通常它会保留更多的节点并具有更强的泛化能力,但是,由于需要构建完整的树并且验证多个节点,模型的复杂程度会更高。

3、重要概念:

3.1、熵:描述物质系统状态可能出现的程度,混乱状况,一般介于0~1之间,1最混乱,0确定性最高,是理想状况。对于一组数据,分类后熵越小,说明分类效果越好
单一变量信息熵的计算公式:
信息熵
3.2、多变量的联合熵的计算:
联合熵
3.3、有了联合熵,又可以得到条件熵的表达式H(X|Y),条件熵类似于条件概率,它度量了我们在知道Y以后X剩下的不确定性。
条件熵
3.4互信息【也称之为,信息增益】I(X,Y) = H(X) - H(X|Y),度量了X在知道Y以后不确定性减少程度
在这里插入图片描述

4、决策树的三种算法说明:

4.1、ID3 (信息增益entropy)
选择信息增益最大的分割属性,即熵减程度最大,也就是使得分类后熵最小的属性
信息增益反映的给定一个条件以后不确定性减少的程度,必然是分得越细的数据集确定性更高,也就是条件熵越小,信息增益越大,故容易过拟合
不足:仅处理离散数据类型,且极容易过拟合,现在很少使用ID3

4.2、C4.5(信息增益比率entropy) 选择信息增益比率I(公式如下)最大的分割属性,
信息增益比率
C4.5是针对ID3提出的,某特征中值的种类越多,特征对应的信息熵越大,它作为分母,可以校正信息增益导致的问题。
既可处理离散值,也能处理连续属性的数据
现在的C5.0则是对C4.5的进一步改进【大数据的商业场景应用】

4.3、C4.5不足:
C4.5生成的是多叉树,即一个父节点可以有多个节点。很多时候,在计算机中二叉树模型会比多叉树运算效率高。如果采用二叉树,可以提高效率。
C4.5只能用于分类,如果能将决策树用于回归的话可以扩大它的使用范围。
C4.5由于使用了熵模型,里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算。
如果是连续值还有大量的排序运算,运算效率较低
注:C4.5的不足也是ID3的不足,同时ID3还不能处理连续属性

4.4、CART(最小基尼指数)
CART产生背景:为了能简化模型且减少运算强度但又不牺牲太多准确性。这也是CART分类效果
优于其他决策树的理论根基
基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的。
既可处理离散值,也能处理连续属性的数据
属于二叉树,只能将一个父节点分为两个叶节点。
在这里插入图片描述
对比:ID3与C4.5算法只为叶子结点分配类别,而CART考虑到每个结点都有成为叶子结点的
可能,对每个结点(包括叶子结点与非叶子结点)都分配类别。

【未完待续。。。】

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值