决策树

一、熵

熵(entropy)表示随机变量不确定性的度量。
在这里插入图片描述

变量 X X X的取值 x i x_{i} xi,取这些值的概率为 p ( x i ) p(x_{i}) p(xi)
H ( p ) = − Σ i = 1 n p ( x i ) l o g ( p ( x i ) ) H(p)=-\Sigma_{i=1}^{n} p(x_{i})log( p(x_{i})) H(p)=Σi=1np(xi)log(p(xi))

二、联合熵

根据熵的定义,得到联合熵的表达式:
H ( X , Y ) = − Σ i = 1 n Σ j = 1 m p ( x i , y j ) l o g ( p ( x i , y j ) ) H(X,Y)=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log( p(x_{i},y_{j})) H(X,Y)=Σi=1nΣj=1mp(xi,yj)log(p(xi,yj))

三、条件熵

H(Y|X)表示在随机变量X确定的情况下,随机变量Y的不确定性
H ( Y ∣ X ) = H ( X , Y ) − H ( X ) = − Σ i = 1 n Σ j = 1 m p ( x i , y j ) l o g ( p ( x i , y j ) ) − ( − Σ i = 1 n p ( x i ) l o g ( p ( x i ) ) ) ( 1 ) = − Σ i = 1 n Σ j = 1 m p ( x i , y j ) l o g ( p ( x i , y j ) ) − ( − Σ i = 1 n Σ j = 1 m p ( x i , y j ) l o g ( p ( x i ) ) ) ( 2 ) = − Σ i = 1 n Σ j = 1 m p ( x i , y j ) ( l o g ( p ( x i , y j ) ) − l o g ( p ( x i ) ) ) ( 3 ) = − Σ i = 1 n Σ j = 1 m p ( x i , y j ) l o g p ( x i , y j ) p ( x i ) = − Σ i = 1 n Σ j = 1 m p ( x i , y j ) l o g p ( y j ∣ X = x i ) = − Σ i = 1 n Σ j = 1 m p ( x i ) p ( y j ∣ X = x i ) ) l o g p ( y j ∣ X = x i ) = − Σ i = 1 n p ( x i ) Σ j = 1 m p ( y j ∣ X = x i ) ) l o g p ( y j ∣ X = x i ) = − Σ i = 1 n p ( x i ) H ( Y ∣ X = x i ) \begin{aligned} H(Y|X)&=H(X,Y) - H(X)\\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log( p(x_{i},y_{j})) - (-\Sigma_{i=1}^{n} p(x_{i})log( p(x_{i}))) (1)\\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log( p(x_{i},y_{j})) - (-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log( p(x_{i}))) (2)\\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})(log( p(x_{i},y_{j})) -log( p(x_{i})) ) (3)\\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log\frac {p(x_{i},y_{j})} {p(x_{i})} \\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})logp(y_{j}|X=x_{i}) \\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i}) p(y_{j}|X=x_{i}))logp(y_{j}|X=x_{i}) \\ &=-\Sigma_{i=1}^{n}p(x_{i})\Sigma_{j=1}^{m} p(y_{j}|X=x_{i}))logp(y_{j}|X=x_{i}) \\ &=-\Sigma_{i=1}^{n}p(x_{i}) H(Y|X=x_{i}) \end{aligned} H(YX)=H(X,Y)H(X)=Σi=1nΣj=1mp(xi,yj)log(p(xi,yj))(Σi=1np(xi)log(p(xi)))(1)=Σi=1nΣj=1mp(xi,yj)log(p(xi,yj))(Σi=1nΣj=1mp(xi,yj)log(p(xi)))(2)=Σi=1nΣj=1mp(xi,yj)(log(p(xi,yj))log(p(xi)))(3)=Σi=1nΣj=1mp(xi,yj)logp(xi)p(xi,yj)=Σi=1nΣj=1mp(xi,yj)logp(yjX=xi)=Σi=1nΣj=1mp(xi)p(yjX=xi))logp(yjX=xi)=Σi=1np(xi)Σj=1mp(yjX=xi))logp(yjX=xi)=Σi=1np(xi)H(YX=xi)

四、信息增益(Information Gain)

信息增益表示得知特征A的信息而使得数据集D信息不确定性减少的程度
g ( D , A ) = H ( D ) − H ( D ∣ A ) g(D,A) = H(D) - H(D|A) g(D,A)=H(D)H(DA)
采用信息增益作为判定方法,会倾向于去选择特征取值比较多的特征作为最优特征。那么,选择取值多的特征为甚就不好呢?(用ID作为区分特征,每个特征的属性中的样本少,特征与分类结果间没关系)

五、信息增益比

特征A的信息对数据集D信息增益比表示为特征A给数据集D带来的信息增益与数据集D的经验熵之比
g R ( D , A ) = g ( D , A ) H ( D ) g_{R}(D,A) = \frac{g(D,A)} {H(D)} gR(D,A)=H(D)g(D,A)

六、ID3算法

选取信息增益最大的特征作为分类特征。
在这里插入图片描述
在这里插入图片描述

七、C4.5算法

选取信息增益比最大的特征作为分类特征。C4.5生成决策树与ID3相似。

八、决策树剪枝

8.1 决策树损失函数

在这里插入图片描述
在这里插入图片描述

8.2 决策树剪枝

在这里插入图片描述
在这里插入图片描述

九、CART算法

回归树使用平方误差最小化准则,分类树使用Gini指数最小化准则

9.1 回归树

在这里插入图片描述
在这里插入图片描述

9.2 分类树
9.2.1 基尼指数

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

9.2.2 分类树

在这里插入图片描述
在这里插入图片描述

参考
[1] 李航 统计学习方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值