机器学习—决策树


本文将记录在《统计学习方法》中有关决策树的内容

分类树(ID3&C4.5&CART分类树)

信息增益

熵表示随机变量的不确定性的程度。X是有有限制的离散随机变量集 X = { x 1 , x 2 , . . . , x N } X=\{ x_1,x_2,...,x_N\} X={ x1,x2,...,xN},则该数据集的熵为: H ( X ) = − ∑ i = 1 N p i ∗ l o g ( p i ) H(X) = - \sum_{i=1}^Np_i*log(p_i) \\ H(X)=i=1Npilog(pi)
其中 p i p_i pi为第i个数据出现的频率。
熵只依赖X的分布,与X的取值无关,熵越大随机变量的不确定性就越大。
条件熵 H ( Y ∣ X ) H(Y|X) H(YX)表示在已知特征A的情况下随机变量Y的不确定程度,定义为 H ( Y ∣ X ) = ∑ i = 1 N p i H ( Y ∣ X = x i ) p i = P ( X = x i ) 当 p i = 0 时 , 令 0 l o g 0 = 0 H(Y|X) = \sum_{i=1}^N p_iH(Y|X=x_i)\\ p_i = P(X=x_i)\\当p_i = 0时,令0log0 = 0 H(YX)=i=1NpiH(YX=xi)pi=P(X=xi)pi=00log0=0
在给定数据集D的情况下特征A对于数据集的信息增益g(D,A),定义为集合X的熵减去特征A下的X的条件熵,定义为 g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A)= H(D) - H(D|A) g(D,A)=H(D)H(DA)

H ( D ) H(D) H(D)与条件熵 H ( D ∣ A ) H(D|A) H(DA)之间的差值称为互信息,决策树中的信息增益等价于训练数据集中类与特征的互信息

信息增益表达特征A对数据集分类的不确定性减少的程度,信息增益大的特征具有更强的分类能信息增益力。
对于数据集D中有 C = { C 1 , C 2 , C k } C = \{C_1,C_2,C_k\} C={ C1,C2,Ck}个类别, ∣ C k ∣ |C_k| Ck表示第k个类别中样本个数,显然 ∑ i k ∣ C i ∣ = ∣ D ∣ \sum_i^k|C_i| = |D| ikCi=D,特征A的取值 {

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值