机器学习之决策树算法

最新推荐文章于 2024-10-31 17:11:04 发布

Taoist_Nie

最新推荐文章于 2024-10-31 17:11:04 发布

阅读量266

点赞数

文章标签：机器学习决策树分类算法

本文链接：https://blog.csdn.net/qq_39494028/article/details/83118932

版权

决策树算法

决策树算法，顾名思义，是基于树结构来进行决策过程。譬如我们判断一个西瓜好坏，会先从它的色泽，再从它的敲声等等来从上至下进行判断，逻辑过程类似于一颗倒着生长的大树。由于决策树的思路很像我们人在做判断，具有很好的解释性，在医疗等很多领域应用广泛。

决策树是由根节点（第一个选择点）、非叶子结点与分支（中间过程）、叶子节点（决策结果）三部分组成。一棵决策树由若干内部节点和若干叶子节点组成。

给定一个训练集：

$D =$ { $x_1,y_1),(x_2,y_2)...(x_m,y_m)$ }

属性集：

$A =$ { $a_1,a_2...a_d$ }

若将此训练集用决策树算法进行分类，首先我们要在属性集中选择一个属性作为决策树的根节点，那么我们通过什么样的判定标准去进行选择呢？

熵是随机变量不确定性的度量，表示了事物内部的混乱程度，混乱程度越高，不确定性越大，熵越大。

公式：

设 $X$ 是一个取有限个值的离散型随机变量，其分布律为：

$P(X=x_i)=p_i$ $i = 1, 2 . . . n$

随机变量的熵为：

$H(X)=-\sum_{i=1}^{n}{p_ilogp_i}$

熵只依赖于 $X$ 的分布即：

$H(p)=-\sum_{i=1}^{n}{p_ilogp_i}$

条件熵 $H (Y ∣ X)$ 表示已知随机变量X的条件下随机变量Y的不确定性，定义为X给定条件下Y的条件概率分布的熵对X的数学期望:

$H(Y|X)=\sum_{i=1}^{n}P(X=x_i)H(Y|X=x_i)$

$g (D, A) = H (D) - H (D ∣ A)$

思路：

ID3算法是以信息增益为衡量标准的算法，核心是在决策树的每个结点上利用信息增益来选择特征。具体方法：从根节点开始，对结点计算所有可能的信息增益，选择信息增益最大的特征作为结点，由该特征的不同取值建立子节点，再对子节点递归的调用上述方法。

输入：训练数据集D,特征集A，阈值 $\varepsilon$

输出：决策树T

若D中所有实例属于同一类别 $C_k$ ，则T为单节点树，并将类 $C_k$ 作为该结点的类标记，返回T
若A= $\phi$ ，则T为则T为单结点树，并将D中实例最大的类 $C_k$ 作为该结点的类标记，返回T
否则，按信息增益算法，计算A中各特征对D的信息增益，选择信息增益最大的特征 $A_g$
如果 $A_g$ 的信息增益小于阈值 $\varepsilon$ ,则置T为单结点树，并将D中实例数最大的类 $C_k$ 作为该结点的类标记，返回T
否则，对 $A_g$ 的每一可能值 $a_i$ ，依 $A_g=a_i$ 将D分割为若干个非空子集 $D_i$ ,将 $D_i$ 中实例数最大的类作为标记，构建子结点，由结点及其子结点构造树T，返回T
对于第 i 个子结点，以 $D_i$ 为训练集，以 $A-A_g$ 作为特征集，递归调用 1-5 步,返回树 $T_i$