决策树

最新推荐文章于 2024-08-04 21:08:26 发布

huahuahuahhhh

最新推荐文章于 2024-08-04 21:08:26 发布

阅读量188

点赞数

分类专栏：机器学习文章标签：决策树

本文链接：https://blog.csdn.net/Blankit1/article/details/103089929

版权

机器学习专栏收录该内容

26 篇文章 0 订阅

订阅专栏

一、熵

熵（entropy）表示随机变量不确定性的度量。
在这里插入图片描述

变量 $X$ 的取值 $x_{i}$ ，取这些值的概率为 $p(x_{i})$
$H(p)=-\Sigma_{i=1}^{n} p(x_{i})log( p(x_{i}))$

二、联合熵

根据熵的定义，得到联合熵的表达式：
$H(X,Y)=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log( p(x_{i},y_{j}))$

三、条件熵

H(Y|X)表示在随机变量X确定的情况下，随机变量Y的不确定性
$\begin{aligned} H(Y|X)&=H(X,Y) - H(X)\\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log( p(x_{i},y_{j})) - (-\Sigma_{i=1}^{n} p(x_{i})log( p(x_{i}))) (1)\\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log( p(x_{i},y_{j})) - (-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log( p(x_{i}))) (2)\\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})(log( p(x_{i},y_{j})) -log( p(x_{i})) ) (3)\\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log\frac {p(x_{i},y_{j})} {p(x_{i})} \\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})logp(y_{j}|X=x_{i}) \\ &=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i}) p(y_{j}|X=x_{i}))logp(y_{j}|X=x_{i}) \\ &=-\Sigma_{i=1}^{n}p(x_{i})\Sigma_{j=1}^{m} p(y_{j}|X=x_{i}))logp(y_{j}|X=x_{i}) \\ &=-\Sigma_{i=1}^{n}p(x_{i}) H(Y|X=x_{i}) \end{aligned}$

四、信息增益（Information Gain）

信息增益表示得知特征A的信息而使得数据集D信息不确定性减少的程度
$g (D, A) = H (D) - H (D ∣ A)$
采用信息增益作为判定方法，会倾向于去选择特征取值比较多的特征作为最优特征。那么，选择取值多的特征为甚就不好呢？（用ID作为区分特征，每个特征的属性中的样本少，特征与分类结果间没关系）