决策树笔记

最新推荐文章于 2023-05-15 21:42:44 发布

饺子醋

最新推荐文章于 2023-05-15 21:42:44 发布

阅读量620

点赞数

分类专栏： machine learning algorithm 文章标签：决策树 ide3 c4-5 算法机器学习

本文链接：https://blog.csdn.net/coderTC/article/details/78550753

版权

machine learning 同时被 2 个专栏收录

8 篇文章 3 订阅

订阅专栏

algorithm

8 篇文章 0 订阅

订阅专栏

概述
决策树的生成
- 特征选择
  - 信息增益
  - 信息增益比
- 决策树的生成
  - IDE3算法
  - C45算法
决策树的剪枝
- 损失函数
- 剪枝算法
说明

概述

决策树常见的算法有IDE3、C4.5以及CART算法。
按照决策树是否为二叉树，可以将3个算法分为两类，IDE3、C4.5属于非二叉树决策树算法，CART针对二叉树决策树，本文介绍IDE3、C4.5，关于CART算法，请参考决策树笔记-CART算法。

决策树是一种用来做分类的树形结构。
决策树的节点分为两种，内部节点和叶节点。内部节点表示一个特征或属性，叶节点表示分类结果。

用决策树进行分类时，从根节点开始，对待分类实例的某一特征进行测试，根据测试结果将实例分配到子节点，如此递归进行下去，直到达到叶节点，即完成分类。

决策树的学习通常包括2个步骤，决策树的生成和决策树的剪枝。而在决策树的生成过程中，用到的很关键的算法，就是特征选择。在生成决策树时优先使用对分类最有效的特征来作为当前的节点，特征选择算法就是用来找出“最有效的特征”。

决策树的生成

特征选择

特征选择目的在于选取对训练数据具有分类能力的特征，这样可以提高决策树学习与分类的效率。

例如，你是一名新入职的负责审核贷款的银行员工，你现在要学习如何决定是否给一个申请者发放贷款，你的上司给了你一些已经完成审核的申请信息让你学习，其中包含一些特征：年龄、是否有工作、是否有房子、信誉情况，你发现能否申请成功跟是否有房子的关系最大，而跟年龄的关系相对最小，于是你在做决策时，会优先考虑申请者是否拥有房子。

那么给定一堆特征，如何判断哪个特征跟分类的关系最大，如何评价各个特征的分类能力呢？通常选择的标准是信息增益（互信息）或者信息增益比（信息增益的加强版）。

信息增益

为说明信息增益，首先来了解熵和条件熵。

熵

熵是表示随机变量不确定性的度量。总是考得很好的学生和总是考倒数的学生熵都很小，而有时候考得好有时候考得不好的学生熵比较大。

设 $X$ 是一个取有限个值的离散随机变量，其概率分布为：

P (X = x i) = p i, i = 1, 2, . . ., n

$P(X=x_i)=p_i,\quad i=1,2,...,n$
该随机变量

X $X$ 的熵定义为：

H (X) = - \sum i = 1 n p i l o g p i

$H(X)=-\sum_{i=1}^{n}p_ilogp_i$
若

pi=0 $p_i=0$ ，则定义

0log0=0 $0log0=0$ 。

条件熵

设有随机变量 $(X,Y)$ ，其联合概率分布为

P (X = x i, Y = y i) = p i j, i = 1, 2, . . ., n; j = 1, 2, . . ., m

$P(X=x_i,Y=y_i)=p_{ij},\quad i=1,2,...,n;\quad j=1,2,...,m$
条件熵

H(Y|X) $H(Y|X)$ 表示在已知随机变量

X $X$ 的条件下随机变量

Y $Y$ 的不确定性。

作为银行员工，老王跟你申请贷款，一种情况下你对老王的情况一无所知，另一种情况下你知道老王北京有套房子，这两种情况下你贷款给老王的可能性必然是有很大差异的，条件熵就是用来表达后者。

以老王有房子为条件，你给老王贷款这件事情的不确定性（熵）减小了。

随机变量 $X$ 给定的条件下随机变量 $Y$ 的条件熵 $H(Y|X)$ ，定义为 $X$ 给定条件下 $Y$ 的条件概率分布的熵对 $X$ 的数学期望：

H (Y | X) = \sum i = 1 n p i H (Y | X = x i), x = 1, 2, . . ., n

$H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i),\quad x=1,2,...,n$
话说得有点绕，公式也有点绕。你一无所知的时候给老王贷款的不确定性就叫做给给老王贷款的熵，你知道老王有无房子时给老王贷款的不确定性就叫做“以老王有无房子为条件，你给老王贷款的条件熵”，这里条件熵包含了有无房子这个变量的两个取值：有房子、没房子，这就是为什么要求数学期望。

信息增益

信息增益表示得知特征 $X$ 的信息而使得类 $Y$ 不确定性减少的程度。

对老王一无所知时给老王贷款的不确定性 - 知道老王有无房子时给老王贷款的不确定性 = 关于有无房子和是否贷款的信息增益

特征 $A$ 对训练数据集 $D$ 的信息增益 $g(D,A)$ ，定义为集合 $D$ 的熵 $H(D)$ 与特征 $A$ 给定条件下D的条件熵 $H(D|A)$ 之差，即：

g (D, A) = H (D) - H (D | A)

$g(D,A)=H(D)-H(D|A)$

这里还要多说一句，打个岔，不想看这部分可以不看，直接看下一小节信息增益比。
互信息的定义是熵和条件熵之差，而上面信息增益也说是熵和条件熵之差，那岂不是互信息=信息增益？
为了方便理解，上面没有提及经验熵和经验条件熵的概念。
当熵和条件熵中的概率由数据估计（尤其是极大似然估计）得到时，所对应的熵和条件熵分别被称为经验熵和经验条件熵，而：

信 息 增 益 = 经 验 熵 - 经 验 条 件 熵

$信息增益=经验熵-经验条件熵$
但是在数值上，

信息增益=互信息 $信息增益=互信息$ 。

信息增益比

信息增益有一个缺点：偏向于取值种类多的特征。
特征身份证号假设有100个（即训练集的数量，100个人就有100个身份证号）取值；特征有无房子有两个取值，有或无；那么特征增益这种评价特征优劣的指标会偏向于身份证号特征。
因为身份证号的条件熵为一定为0，因而其信息增益就等于熵；而有无房子的条件熵往往大于0，因此有无房子的信息增益小于身份证号。
更通俗点，你的模型通过学习会记住训练集中申请人的身份证号，因为它发现仅仅凭身份证号，就可以知道是否给一个人贷款；但是这是毫无意义的，因为这严重过拟合了。

因此引出信息增益比的概念。

特征 $A$ 对训练数据集 $D$ 的信息增益比 $g_R(D,A)$ 定义为其信息增益 $g(D,A)$ 与训练数据集 $D$ 关于特征 $A$ 的值的熵 $H_A(D)$ 之比，即：

g R (D, A) = g ( D , A ) H A ( D ) = H ( D ) - H ( D | A ) H A ( D )

$g_R(D,A)=\frac{g(D,A)}{H_A(D)}=\frac{H(D)-H(D|A)}{H_A(D)}$
其中

HA(D)=−∑ni=1|Di||D|log2|Di||D| $H_A(D)=-\sum_{i=1}^{n}\frac{|D_i|}{|D|}log_2\frac{|D_i|}{|D|}{}$ ，

n $n$ 是特征

A $A$ 的取值个数。

其实如果将类别标记 $C$ 和特征 $A$ 一视同仁的话，熵 $H(D)$ 可以表示为 $H_C(D)$ ，信息增益比的公式则为：

g R (D, A) = g ( D , A ) H A ( D ) = H C ( D ) - H ( D | A ) H A ( D )

$g_R(D,A)=\frac{g(D,A)}{H_A(D)}=\frac{H_C(D)-H(D|A)}{H_A(D)}$
有没有变得好记好理解一些。

决策树的生成

按照特征选择标准的不同，决策树的生成算法常见分为ID3算法、C4.5算法。

IDE3算法

输入：训练数据集 $D$ ，特征集 $A$ ，阈值 $\varepsilon$ 。
输出：决策树 $T$
1. 若 $D$ 中所有实例属于同一类 $C_k$ ，则T为单节点树，将 $C_k$ 作为该节点的类别标记，返回 $T$ 。
2. 若 $A=\phi$ ，则 $T$ 为单节点树，将 $D$ 中实例数最大的类 $C_k$ 作为该节点的类别标记，返回 $T$ 。
3. 计算 $A$ 中信息增益并选择最大的特征 $A_g$ 。
4. 如果 $A_g$ 信息增益小于阈值 $\varepsilon$ ，则 $T$ 为单节点树，将 $D$ 中实例数最多的类 $C_k$ 作为该节点的类别标记，返回 $T$ 。
5. 否则，对 $A_g$ 每一个可能的取值 $a_i$ ，依照 $A_g=a_i$ 将 $D$ 分割为若干非空子集 $D_i$ ，将 $D_i$ 中实例数最大的类别作为标记，构建子节点，由节点及子节点构成树 $T$ ，返回 $T$ 。
6. 对第 $i$ 个子节点，以 $D_i$ 为训练集，以 $A-\{A_g\}$ 为特征集，递归地调用步骤1~5，返回 $T_i$ 。