机器学习笔记三——决策树

最新推荐文章于 2024-08-26 23:36:56 发布

原创

最新推荐文章于 2024-08-26 23:36:56 发布

· 589 阅读

1 ·

版权

文章标签：

#决策树 #机器学习

一、决策树

1.1 基本思想

分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型：内部结点和叶结点。内部结点表示一个特征或属性，叶结点表示一个类。

用决策树分类，从根节点开始，对实例的某一特征进行测试，根据测试结果，将实例分配到其子结点；这时，每一个子结点对应着该特征的一个取值。如此递归的对实例进行测试并分配，直至达到叶结点，最后将实例分到叶结点的类中。

决策树学习通过包括3个步骤：特征选择、决策树的生成和决策树的修剪。

1.2 特征选择

特征选择，即选取某个特征，然后根据这个特征对实例点进行分类。那么该如何选择特征呢？

1.2.1 熵

熵表示随机变量不确定性的度量。设 $X$ 是一个取有限个值的离散随机变量，其概率分布为： $P(X=x_i)=p_i, i=1,2,\cdots,n\tag1$
则随机变量 $X$ 的熵为： $H(X)=-\sum\limits_{i=1}^np_i\log p_i\tag2$
若 $p_i=0$ ，定义 $p_i\log p_i=0$ 。根据定义，随机变量 $X$ 的熵与 $X$ 的取值无关，只取决于 $X$ 的分布，因此有时也记作 $H(p)=-\sum\limits_{i=1}^np_i\log p_i\tag3$
熵越大，随机变量的不确定性越大。

1.2.2 条件熵

设有随机变量 $(X, Y)$ ，其联合概率分布为 $P(X=x_i, Y=y_j)=p_{ij}, i=1, 2, \cdots, n\tag4$
条件熵 $H (Y ∣ X)$ 表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性。随机变量 $X$ 给定的条件下随机变量 $Y$ 的条件熵定义为 $H(Y|X)=\sum\limits_{i=1}^np_iH(Y|X=x_i)\tag5$
这里 $p_i=P(X=x_i), i=1, 2, \cdots, n$