决策树

最新推荐文章于 2021-11-28 21:33:05 发布

qq_46458164

最新推荐文章于 2021-11-28 21:33:05 发布

阅读量144

点赞数

分类专栏：机器学习西瓜书

本文链接：https://blog.csdn.net/qq_46458164/article/details/112852339

版权

本文详细介绍了决策树的基本流程，包括信息增益、增益率、基尼系数等划分选择标准，以及预剪枝和后剪枝两种处理方式。通过对西瓜数据集的分析，展示了如何在实际中应用这些概念，强调了剪枝对于避免过拟合和提升决策树泛化能力的重要性。此外，还探讨了连续值和缺失值的处理方法。

摘要由CSDN通过智能技术生成

决策树

作者： $l i t t l e - x u$

时间： $2021 / 1 / 18$

基本流程

Conception

一般情况，一棵决策树包含一根根节点，若干个内部节点和若干个叶节点；叶节点对应决策结果，其他每个节点对应属性测试。举例，当我们买西瓜，可以从多方面色泽，根蒂，敲声，纹理，脐部，触感等方面来逐次判断他是否是一个好西瓜。而此时这些属性就类比决策树中的节点。

决策树学习的目的是产生一棵泛化能力强(处理未见示例能力强的决策树)，分而治之

划分选择

信息增益

决策树的分支节点所包含样本尽可能属于同一类别，即节点的"纯度"越来越高

信息熵定义:

$\begin{aligned} Ent(D) = -\sum_{k=1}^{\lvert y \rvert}p_k\log_2p_k \end{aligned}$

其中当前样本 $D$ 中第 $k$ 类样本所占比例为 $p_k(k=1,2,\cdots,\lvert \mathbf{y} \rvert)$ , $E n t (D)$ 的值越小，则 $D$ 的纯度越小.

$\begin{aligned} Gain(D,a) = Ent(D)-\sum_{v=1}^{V}\cfrac{D^v}{D}Ent(D^v) \end{aligned}$

其中离散属性 $a$ 有 $V$ 个可能取值 $\{a^1,a^2,\cdots,a^V\}$ ,就是对属性进行 $v$ 次划分，比如我们可以根据色则进行划分青绿，乌黑，浅白。第 $v$ 个分支节点包含 $D$ 所有在属性 $a$ 在属性 $a$ 上取值为 $a^v$ 的样本，比如我们把 $D$ 中所有青绿的记为 $D^{青绿}$ 。分枝结点赋予权重 $\cfrac{\lvert D^v \rvert}{\lvert D \rvert}$ ，计算出 $D^{青绿}$ 的信息熵 $Ent(D^v)$ 。则可以计算划分后信息熵的增加.


编号	色泽	根蒂	敲声	纹理	脐部	触感	好瓜
1	青绿	蜷缩	浊响	清晰	凹陷	硬滑	是
2	乌黑	蜷缩	沉闷	清晰	凹陷	硬滑	是
3	乌黑	蜷缩	浊响	清晰	凹陷	硬滑	是
4	青绿	蜷缩	沉闷	清晰	凹陷	硬滑	是
5	浅白	蜷缩	浊响	清晰	凹陷	硬滑	是
6	青绿	稍蜷	浊响	清晰	稍凹	软粘	是
7	乌黑	稍蜷	浊响	稍糊	稍凹	软粘	是
8	乌黑	稍蜷	浊响	清晰	稍凹	硬滑	是
9	乌黑	稍蜷	沉闷	稍糊	稍凹	硬滑	否
10	青绿	硬挺	清脆	清晰	平坦	软粘	否
11	浅白	硬挺	清脆	模糊,	平坦	硬滑	否
12	浅白	,蜷缩	浊响	模糊	平坦	软粘	否
13	青绿	稍蜷	浊响	稍糊	凹陷	硬滑	否
14	浅白	稍蜷	沉闷	稍糊	,凹陷	硬滑	否
15	乌黑	,稍蜷	浊响	清晰	稍凹	软粘	否
16	浅白	蜷缩	浊响	模糊	平坦	硬滑	否
17	青绿	蜷缩	沉闷	稍糊	稍凹	硬滑	否

根节点包含 $D$ 中所有好瓜坏瓜样例，其中正例占 $p_1=\cfrac{8}{17}$ ,反例占 $p_2=\cfrac{9}{17}$ ,根节点信息熵为

$\begin{aligned} Ent(D) = -\sum_{k=1}^{2}p_k\log_2p_k = -(\cfrac{8}{17}\log_2\cfrac{8}{17}+\cfrac{9}{17}\log_2\cfrac{8}{17}) = 0.998 \end{aligned}$

以色泽为属性

$D^{青绿}$ 包含编号 ${1,4,6,10,13,17\}$ ,好瓜占 $\cfrac{3}{6}$ ,坏瓜占 $\cfrac{3}{6}$ 。

$D^{乌黑}$ 包含编号 ${2,3,7,8,9,15\}$ ,好瓜占 $\cfrac{4}{6}$ ,坏瓜占 $\cfrac{2}{6}$ 。

$D^{浅白}$ 包含编号 ${5,11,12,14,16\},$ 好瓜占 $\cfrac{1}{5}$ ,坏瓜占 $\cfrac{4}{5}$ 。

则由信息熵的公式可以分别计算出

$\begin{aligned} Ent(D^{青绿}) & =-(\cfrac{3}{6}\log_2\cfrac{3}{6}+\cfrac{3}{6}\log_2\cfrac{3}{6}) = 1.0000 \\ Ent(D^{乌黑}) & =-(\cfrac{4}{6}\log_2\cfrac{4}{6}+\cfrac{2}{6}\log_2\cfrac{2}{6}) = 0.918 \\ Ent(D^{青绿}) & =-(\cfrac{1}{5}\log_2\cfrac{1}{5}+\cfrac{4}{5}\log_2\cfrac{4}{5}) = 0.722 \end{aligned}$

则色泽的信息增益为

$\begin{aligned} Gain(D,色泽) & = Ent(D)-\sum_{v=1}^{3}\cfrac{D^v}{D}Ent(D^v) \\ & = 0.998-(\cfrac{6}{17}\times1.000+\cfrac{6}{17}\times0.918+\cfrac{5}{17}\times0.722) \\ & = 0.109 \end{aligned}$

同理可得

$\begin{aligned} Gain(D,根蒂) & = 0.143; \quad Gain(D,敲声) = 0.141; \\ Gain(D,纹理) & = 0.381; \quad Gain(D,脐部) = 0.289; \\ Gain(D,触感) & = 0.006 \end{aligned}$