决策树

参考视频:https://www.bilibili.com/video/av26086646/

参考文章:https://zhuanlan.zhihu.com/p/20794583

目录

一、特征选择

二、决策树生成

三、决策树剪枝


决策树,是一种基本的分类与回归方法,可看做 if-then 规则的集合。

决策树的路径特征:互斥且完备(即每一个样本均被且只能被一条路径所覆盖) 

一、特征选择

若根据某特征进行分类 的结果 与随机分类的结果相差不大,则认为此特征不具备分类能力

→ 用信息增益定义特征的分类能力。

例如,一棵决策树,在无分支的情况下,初始熵值为0.94;

加了一个分支后,熵值下降为0.693,信息增益(gain)=0.94-0.693

gain越大越好。

选择根节点时→选择gain最大的特征作为根节点。gain次大的作为第二节点

 

信息增益(gain)=H(D)-H(D|A)

 

→ 这里的H指熵(entropy)

引入熵的概念:

  • 熵 entropy   

——描述随机变量的不确定性

设X是一个有限状态的离散型随机变量,其概率分布为  P(X = x_i) = p_i,\ i=1,2,\cdots,n

则随机变量X的熵定义为

 H(x)=-\sum_{i=1}^{n}p_{i}logp_{i}

属性:entropy越大,越混乱。


  • 怎么判断在一棵决策树中,把哪个特征当做根节点呢?→选择gain最大的特征作为根节点。gain次大的作为第二节点,依次类推。

举例,这里有四个特征(outlook、temperature、humidity、windy),需要根据这四个特征去决策 是否play。

首先,需要算什么都不做的情况下的决策的自身熵值:H(x)=

即在无分支情况下,决策结果的自身熵值为0.94。

→ 接着,计算基于各个特征进行决策的熵

 

 

二、决策树生成

三、决策树剪枝

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值