决策树

最新推荐文章于 2024-06-21 15:09:51 发布

zhaohui24

最新推荐文章于 2024-06-21 15:09:51 发布

阅读量150

点赞数

分类专栏：机器学习文章标签：决策树机器学习

本文链接：https://blog.csdn.net/weixin_31948131/article/details/117885242

版权

机器学习专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

1. 特征选择问题
2. 信息增益
- 2.1 信息增益选择最优特征实例
- 2.2 ID3 算法
3. GBDT
附录

1. 特征选择问题

下面是15个样本组成的贷款申请训练数据，含有4个特征。

年龄：青年、中年、老年
有工作：是、否
有自己房子：是、否
信贷情况：一般、好、非常好

在这里插入图片描述
如下图所示，如何选取一个特征有更好的分类效果？直观上，一个特征有更好的分类能力，或者说，按照这一特征将训练集分割成子集，使得各子集在当前条件下有最好的分类，那么就应该选择这个特征。信息增益（information gain）可以很好表示这一准则。参考-李航-统计学习方法

在这里插入图片描述

2. 信息增益

熵（entropy）：表示随机变量不确定性的度量。设 $X$ 是一个取有限个值的随机变量，其概率分布为
$P(X=x_i)=p_i \qquad i=1,2,\cdots,n$

则随机变量 $X$ 的熵定义为
$H(p)=-\sum_{i=1}^{n} p_{i} \log p_{i}$

由定义可知，熵只依赖于 $X$ 的分布，与 $X$ 的取值无关。熵越大，随机变量的不确定性就越大。

设有随机变量 $(X, Y)$ ，其联合概率密度分布为
$P(X=x_i,Y=y_i)=p_{ij} \qquad i=1,2,\cdots,n; \quad j=1,2,\cdots,m$

条件熵 $H (Y ∣ X)$ 表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性。定义为 $X$ 给定条件下 $Y$ 的条件概率分布的熵对 $X$ 的数学期望，其中 $p_i=P(X=x_i), \quad i=1,2,\cdots,n$
$\mid X)=\sum_{i=1}^{n} p_{i} H\left(Y \mid X=x_{i}\right)$

信息增益（information gain）表示得知特征 $X$ 的信息而使得类 $Y$ 的信息的不确定性减少的程度。

特征 $A$ 对训练数据集 $D$ 的信息增益 $g (D, A)$ ，定义为集合 $D$ 的经验熵 $H (D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H (D ∣ A)$ 之差。
$g (D, A) = H (D) - H (D ∣ A)$

决策树 学习应用 信息增益准则 选择特征。

给定训练数据集 $D$ ， $∣ D ∣$ 表示样本容量，即样本个数
设有 $K$ 个类 $C_k, \quad k=1,2,\cdots, K$ ， $C_k|$ 为属于类 $C_k$ 的样本个数， $\sum_{k=1}^K|C_k|=|D|$
设特征 $A$ 有 $n$ 个不同的取值 $\{a_1, a_2,\cdots,a_n\}$ ，根据特征 $A$ 的取值将 $D$ 划分为 $n$ 个子集， $D_1, D_2,\cdots,D_n$ ， $D_i|$ 为 $D_i$ 的样本个数， $\sum_{i=1}^n|D_i|=|D|$
子集 $D_i$ 中属于类 $C_k$ 的样本的集合为 $D_{ik}$ ，即 $D_{ik}=D_i \cap C_k$ ， $D_{ik}|$ 为 $D_{ik}$ 的样本个数。

经验熵 H(D) 表示对数据集D 进行分类的不确定性，
$H(D)=-\sum_{k=1}^{k} \frac{\left|C_{k}\right|}{|D|} \log _{2} \frac{\left|C_{k}\right|}{|D|}$

经验条件熵 H(D|A) 表示在特征A 给定条件下对数据集D 进行分类的不确定性，
$\mid A)=\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} H\left(D_{i}\right)=-\sum_{i=1}^{n} \frac{\left|D_{i}\right|}{|D|} \sum_{k=1}^{K} \frac{\left|D_{i k}\right|}{\left|D_{i}\right|} \log _{2} \frac{\left|D_{i k}\right|}{\left|D_{i}\right|}$

信息增益 g(D,A) 为前两者之差，表示由于特征A 而使得对数据集D 的分类的不确定性减少的程度， $g (D, A) = H (D) - H (D ∣ A)$ 。

信息增益准则的特征选择方法，对训练数据集（或子集） $D$ ，计算其每个特征的信息增益，并比较它们的大小，选择信息增益最大的特征。

2.1 信息增益选择最优特征实例

根据章节1中的贷款申请样本数据表进行计算最优特征

计算数据集D 的经验熵H(D)，有两类，6个数据为否，9个为是
$H(D)=-\frac{9}{15} \log _{2} \frac{9}{15}-\frac{6}{15} \log _{2} \frac{6}{15}=0.971$
计算各特征 对数据集D的信息增益，分别以 $A_1,A_2,A_3,A_4$ 表示年龄，有工作，有自己的房子和信贷情况 4 个特征。

$\begin{aligned} g\left(D, A_{1}\right)&=H(D)-\left[\frac{5}{15} H\left(D_{1}\right)+\frac{5}{15} H\left(D_{2}\right)+\frac{5}{15} H\left(D_{3}\right)\right] \\ &=0.971-\left[\frac{5}{15}\left(-\frac{2}{5} \log _{2} \frac{2}{5}-\frac{3}{5} \log _{2} \frac{3}{5}\right)+\frac{5}{15}\left(-\frac{3}{5} \log _{2} \frac{3}{5}-\frac{2}{5} \log _{2} \frac{2}{5}\right)+\frac{5}{15}\left(-\frac{4}{5} \log _{2} \frac{4}{5}-\frac{1}{5} \log _{2} \frac{1}{5}\right)\right] \\ &=0.971-0.888 = 0.083 \end{aligned}$

$\begin{aligned} g\left(D, A_{2}\right)&=H(D)-\left[\frac{5}{15} H\left(D_{1}\right)+\frac{10}{15} H\left(D_{2}\right)\right] \\ &=0.971-\left[\frac{5}{15} \times 0+\frac{10}{15}\left(-\frac{4}{10} \log _{2} \frac{4}{10}-\frac{6}{10} \log _{2} \frac{6}{10}\right)\right] \\ &=0.324 \end{aligned}$

$\begin{aligned} g\left(D, A_{3}\right)&=0.971-\left[\frac{6}{15} \times 0+\frac{9}{15}\left(-\frac{3}{9} \log _{2} \frac{3}{9}-\frac{6}{9} \log _{2} \frac{6}{9}\right)\right]=0.971-0.551=0.420 \end{aligned}$

$\begin{aligned} g(D,A_4)=0.971-0.608=0.363 \end{aligned}$