【数据挖掘学习笔记】7.决策树与链接分析

一、决策树

决策树

– 提供了一种展示类似在什么条件下会得到什么值这类规则的方法
– 每个分支要么是一个新的决策节点,要么是树的叶子。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量(每个变量对应一个问题)来判断所属的类别(最后每个叶子会对应一个类别)。

– 功能强大且相当被受欢迎的分类和预测工具。
– 每条路径代表识别一个规则。
– 模型准确和模型明确度之间的选择。
– 把由不同成份组成的总体分成较小且较具同质性的群体。

决策树优点
– 易于理解和解释 人们很容易理解决策树的意义。
– 只需很少的数据准备 其他技术往往需要数据归一化。
– 既可以处理数值型数据也可以处理类别型 数据。其他技术往往只能处理一种数据类型。例如关联规则只能处理类别型的而神经网络只能处理数值型的数据。
– 使用白盒模型. 输出结果容易通过模型的结构来解释。而神经网络是黑箱模型,很难解释输出的结果。
– 可以通过测试集来验证模型的性能 。可以考虑模型的稳定性。
– 鲁棒. 对噪声处理鲁棒。
– 可以很好的处理大规模数据。

决策树缺点
– 训练一棵最优的决策树是一个完全NP问题。 实际应用时决策树的训练采用启发式搜索算法如贪心算法以达到局部最优。
– 决策树创建的过度复杂会导致无法很好的预测训练集之外的数据。这称作过拟合.剪枝机制可以避免这种问题。
– 有些问题决策树没办法很好的解决,例如 异或问题。解决这种问题的时候,决策树会变得过大。
– 主观性较强,可能导致决策失误

决策树建立过程 

  • 决策树生长 
  • 修剪 
  • 规则抽取 
  • 进一步改进 
  • 决策树展示

决策树生长

纯度计算方式
– 基尼值(吉尼Gini,也称总体发散性)
– 熵(entropy,也称信息增益)

基尼值
– 计算从同一个样本中随机取两个抽样,这两个抽样属于同一种类的几率。
– 若一节点包含n种预测值,且每一种预测值在该几点中的出现频率为pi,则该节点的基尼值G为


基尼值越大,纯度越高

基尼值的性质
– 当每种预测值在该节点中的出现频率都一样时(最不纯),Gini值最小。
– 当整个节点只还有一种预测值时(最纯),Gini值最大。
– 取值在0-1之间,最大值为1,最小值大于0
– 纯的节点基尼值是1

– 起源于物理学,用于度量一个热力学系统的无序程度
– 信息领域,熵被用来衡量一个随机变量出现的期望值
– 熵是对信息的不确定性的度量。熵越低,意味着传输的信息越少
– 熵的计算公式


纯度越高,信息量越少,熵越小

熵的性质
– 熵大于等于0
– 当且仅当p1 = p2 = .... = pn时,熵最大
– 纯的节点熵是0
– 条件熵当且仅当X,Y在统计学上相互独立时等号成立。
– 联合熵当且仅当X、Y在统计学上相互独立时等号成立

决策树生成算法——ID3
– 样本有诸多属性
– 按每种属性进行分割
– 计算每种分割之后的纯度
– 选取分割后纯度最大的属性作为分割属性
– 循环直至生成树
  • 各个节点是纯的
  • 达到终止条件ÿ
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值