机器学习笔记（八）——决策树模型的特征选择

最新推荐文章于 2024-07-26 19:37:26 发布

_Kevin_Duan_

最新推荐文章于 2024-07-26 19:37:26 发布

阅读量1.1w

点赞数 1

分类专栏：机器学习文章标签：机器学习决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chunyun0716/article/details/51289940

版权

机器学习专栏收录该内容

30 篇文章 12 订阅

订阅专栏

一、引言

决策树构建过程中的特征选择是非常重要的一步。特征选择是决定用哪个特征来划分特征空间，特征选择是要选出对训练数据集具有分类能力的特征，这样可以提高决策树的学习效率。如果利用某一个特征进行分类与随机分类的结果没有很大的差别，则称这个特征是没有分类能力的。这样的特征可以丢弃。常用的特征选择的准则是信息增益和信息增益比。

二、信息增益

要了解信息增益，我们要先知道熵与条件熵的定义。

2.1 熵

熵是无序度的度量，在信息论和统计中，熵表示随机变量不确定性的度量。假设 $X$ 是一个取有限值的离散型随机变量，它的概率分布如下：

P (X = x i) = p i, i = 1, 2, \dots, n

$P(X=x_i)=p_i, i = 1,2,\dots,n$
则随机变量

X $X$ 的熵定义为：

H (X) = - \sum i = 1 n p i log p i

$H(X) = -\sum_{i=1}^{n}p_i\log p_i$

若pi=0，定义0log0=0 $若p_i=0，定义0 \log 0 = 0$ ,从上式中可以看到，熵只依赖于

X $X$ 的分布，而与

X $X$ 的取值没有关系。熵越大，随机变量的不确定性就越大。故可以将

X的熵记作H(p): $X的熵记作H(p):$

H (p) = - \sum i = 1 n p i log p i

$H(p) = -\sum_{i=1}^{n}p_i\log p_i$

2.2 条件熵

设有随机变量 $(X,Y)$ ,其联合概率分布为：

P (X = x i, Y = y j) = p i j, i = 1, 2, \dots, n; j = i = 1, 2, \dots, m

$P(X=x_i, Y= y_j)=p_{ij}, i = 1,2, \dots, n; j = i = 1,2, \dots, m$
条件熵

H(Y|X) $H(Y|X)$ 表示在已知随机变量

X $X$ 的条件下随机变量

Y $Y$ 的不确定性。随机变量

X $X$ 给定的条件下随机变量

Y $Y$ 的条件熵

H(Y|X) $H(Y|X)$ 定义为

X $X$ 给定条件下

Y $Y$ 的条件概率分布的熵对

X $X$ 的数学期望：

H (Y | X) = \sum i = 1 n p i H (Y | X = x i), p i = P (X = x i), i = 1, 2, \dots, n

$H(Y|X)=\sum_{i=1}^{n}p_iH(Y|X=x_i), \\ p_i=P(X=x_i), i = 1,2,\dots,n$
当熵和条件熵中的概率由数据估计得来时，所对应的熵和条件熵称为经验熵和经验条件熵。

2.3 信息增益

信息增益表示得知特征 $X$ 的信息而使得类 $Y$ 的信息不确定性减少的程度。
信息增益
$特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差：$

g (D, A) = H (D) - H (D | A)

$g(D,A) = H(D) - H(D|A)$
信息增益大的特征具有更强的分类能力。
根据信息增益准则进行特征选择的方法是：对训练数据集

D $D$ ，计算其每个特征的信息增益，并比较它们的大小，选择最大的特征。

三、信息增益比

通过信息增益选取特征的时候，存在偏向于选择取值较多的特征的问题。使用信息增益比可以纠正这一问题。

信息增益比
$特征A对训练数据集D的信息增益比g_R(D,A)定义为其信息增益g(D,A)与训练数据集D关于特征A的值的熵H_A(D)之比，即:$

g R (D, A) = g ( D , A ) H A ( D ) H A (D) = - \sum i = 1 n | D i | | D | log 2 | D i | | D |

$g_R(D,A) = \frac{g(D,A)}{H_A(D)} \\ H_A(D) = -\sum_{i=1}^{n}\frac{|D_i|}{|D|} \log_2 \frac{|D_i|}{|D|}$
n 是特征A取值的个数。

关注

1
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。