《统计学习方法》读书笔记-----决策树：特征选择

最新推荐文章于 2024-03-22 07:57:00 发布

fxlou

最新推荐文章于 2024-03-22 07:57:00 发布

阅读量368

点赞数

分类专栏： machine learning

本文链接：https://blog.csdn.net/fxlou/article/details/79590400

版权

machine learning 专栏收录该内容

15 篇文章 1 订阅

订阅专栏

特征选择

特征选择就是选取对训练数据具有分类能力的特征，这样可以提高决策树学习的效率。通常特征选择的准则是信息增益或信息增益比。
1. 熵和条件熵

在信息论与概率统计中，熵（entropy）是表示随机变量不确定性的度量。
设 $X$ 是一个取有限个值的离散随机变量，其概率分布为

P (X = x_{i}) = p_{i}, i = 1, 2, . . ., n

$P(X=x_i)=p_i, i=1,2,...,n$
则随机变量 $X$ 的熵定义为

H (X) = - \sum_{i = 1}^{n} p_{i} l o g p_{i}

$H(X)=-\sum _{i=1}^n p_ilogp_i$
由于熵只依赖于

X X $X$ 的分布，与

X

$X$ 的取值无关，所以可以将

X X $X$ 的熵记作

H (p)

$H(p)$ ：

H (p) = - \sum i = 1 n p i l o g p i

$H(p)=-\sum _{i=1}^n p_ilogp_i$
熵越大，随机变量的不确定性越大。

设有随机变量 $(X,Y)$ ，其联合概率分布为：

$P (X = x i, Y = y i) = p i j, i = 1, 2, . . ., n; j = 1, 2, . . ., m$ $P(X=x_i,Y=y_i)=p_{ij},i=1,2,...,n;j=1,2,...,m$
条件熵 $H(Y|X)$ 表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性。
随机变量 $X$ 给定的条件下随机变量 $Y$ 条件熵（conditional entropy） $H(Y|X)$ 定义为：
$H (Y | X) = \sum i = 1 n p i H (Y | X = x i)$ $H(Y|X)=\sum _{i=1}^n p_iH(Y|X=x_i)$
其中， $p_i=P(X=x_i),i=1,2,...,n$
条件熵就是 $X$ 给定条件下 $Y$ 的条件概率分布的熵对 $X$ 的数学期望。

当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，对应的熵和条件熵分别称为经验熵（empirical entropy）和条件经验熵（empirical conditional entropy）。

2. 信息增益
信息增益（information gain）表示得知特征 $X$ 的信息而使得类 $Y$ 的信息不确定性减小的程度。

定义：特征 $A$ 对训练数据集 $D$ 的信息增益 $g(D,A)$ ，定义为集合 $D$ 的经验熵 $H(D)$ 与特征 $A$ 给定条件下 $D$ 的经验熵 $H(D|A)$ 之差，即：

$g (D, A) = H (D) - H (D | A)$ $g(D,A)=H(D)-H(D|A)$
一般地，熵 $H(Y)$ 与熵 $H(Y|X)$ 之差称为互信息（mutual information）。决策树学习中的互信息等价于训练数据集中类与特征的互信息。

信息增益大的特征具有更强的分类能力。根据信息增益准则的特征选取方法为：对训练数据集（或子集） $D$ ，计算其每个特征的信息增益，并比较它们的大小，选择信息增益最大的特征。

设训练数据集为 $D$ ， $|D|$ 表示其样本容量，即样本个数。设有 $K$ 个类 $C_k,k=1,2,...,k$ ， $|C_k|$ 为属于类 $C_k$ 的样本个数， $\sum_{k=1}^K|C_k|=|D|$ ，设特征 $A$ 有 $n$ 个不同的取值 ${a_1,a_2,...,a_n}$ ，根据特征 $A$ 的取值，将 $D$ 划分为 $n$ 个子集 $D_1,D_2,...,D_n$ ， $|D_i|$ 为 $D_i$ 的样本个数，记子集 $D_i$ 中属于类 $C_k$ 的样本的集合为 $D_{ik}$ ，即 $D_{ik}=D_i\bigcap C_k$ ， $|D_{ik}|$ 为 $D_{ik}$ 的样本个数。于是信息增益的算法如下：

输入：训练数据集 $D$ 和特征 $A$ ；
输出：特征 $A$ 对训练数据集 $D$ 的信息增益 $g(D,A)$

（1）计算数据集 $D$ 的经验熵 $H(D)$

$H (D) = - \sum k = 1 K | C k | | D | l o g 2 | C k | | D |$ $H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}log_2\frac{|C_k|}{|D|}$
（2）计算特征 $A$ 对数据集 $D$ 的经验条件熵 $H(D|A)$
$H (D | A) = \sum i = 1 n | D i | | D | H (D | D i) = - \sum i = 1 n | D i | | D | \sum k = 1 K | D i k | | D i | l o g 2 | D i k | | D i |$ $H(D|A)=\sum_{i=1}^n\frac{|D_i|}{|D|}H(D|D_i)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}log_2\frac{|D_{ik}|}{|D_i|}$
（3）计算信息增益
$g (D | A) = H (D) - H (D | A)$ $g(D|A)=H(D)-H(D|A)$

3.信息增益比
信息增益的大小是对训练数据集而言的，并没有绝对意义。在分类问题困难时，也就是说在训练数据集的经验熵比较大时，信息增益值会偏大，反之，信息增益值偏小。使用信息增益比（information gain ratio）可以对这一问题进行校正。

定义：
特征 $A$ 对训练数据集 $D$ 的信息增益比 $g_R(D,A)$ 定义为其信息增益 $g(D,A)$ 与训练数据集的经验熵 $H(D)$ 之比：

$g R (D, A) = g ( D , A ) H ( D )$ $g_R(D,A)=\frac{g(D,A)}{H(D)}$

fxlou

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《统计学习方法》读书笔记-----决策树：特征选择

特征选择特征选择就是选取对训练数据具有分类能力的特征，这样可以提高决策树学习的效率。通常特征选择的准则是信息增益或信息增益比。 1. 熵和条件熵在信息论与概率统计中，熵（entropy）是表示随机变量不确定性的度量。设XXX是一个取有限个值的离散随机变量，其概率分布为 P(X=xi)=pi,i=1,2,...,nP(X=xi)=pi,i=1,2,...,nP(X=x_i)=p_i,...
复制链接

扫一扫

专栏目录