机器学习：如何处理决策树中的连续值

最新推荐文章于 2023-12-14 09:15:00 发布

三景页三景页

最新推荐文章于 2023-12-14 09:15:00 发布

阅读量1.6k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/LEEANG121/article/details/102965111

版权

机器学习专栏收录该内容

12 篇文章 4 订阅

订阅专栏

机器学习：如何处理决策树中的连续值

- 前言
- 连续值问题

前言

首先关于什么是决策树，以及决策树的基本处理过程，如果有不熟悉的朋友，可以关注我之前的博客内容：
这是我见过讲解最详细最通俗易懂的决策树（一）
这是我见过讲解最详细最通俗易懂的决策树（二）
以上两篇博客涉及到了决策树的生成过程，讲解了包括信息熵、信息增益、剪枝等概念。但是没有涉及到连续值的处理办法。

连续值问题

那么什么是连续值问题呢？这里我们引用周志华的机器学习里面的相关概念：
给定样本集 $D$ 和连续属性 $a$ ，假定 $a$ 在 $D$ 上出现了 $n$ 个不同的取值，将这些值从小到大进行排序，记为{ $a^{1}$ , $a^{2}$ ,… $a^{n}$ }.基于划分点t可以将D分为子集 $D_{t}^{-}$ 和 $D_{t}^{+}$ ，其中 $D_{t}^{-}$ 包含那些在属性 $a$ 上取值不大于 $t$ 的样本，而 $D_{t}^{-}$ 则包含那些在属性a上取值大于t的样本。显然，对相邻属性取值 $a^{i}$ 与 $a^{i+1}$ 来说，t在区间【 $a^{i}$ ， $a^{i+1}$ 】中取任意值所产生的划分结果相同，因此对于连续属性 $a$ ，我们可以考察包含 $n - 1$ 个元素的候选划分集合:
$T_{a}={ \frac{a^{i}+a^{i+1}}{2}| 1\leq i\leq n-1}$
把区间【 $a^{i}$ , $a^{i+1}$ )的中位点 $\frac{a^{i}+a^{i+1}}{2}$ 作为候选划分点。然后我们可以像离散属性值一样考虑这些划分点，选取最优的划分点进行样本集合的划分。
划分公式如下：
$Gain(D,a)=\underset{\lambda \epsilon T_{a}}{max}Gain(D,a,t)=\underset{\lambda \epsilon T_{a}}{max}Ent(D)-\sum_{\lambda \epsilon (-,+)}\frac{\left | D_{t}^{\lambda } \right |}{\left |D \right |}Ent(D_{t}^{\lambda })$
其中， $G a i n (D, a, t)$ 是样本集 $D$ 基于划分 $t$ 二分后的信息增益。于是，我们就可以选择 $G a i n (D, a, t)$ 最大化的划分点。

上面这个公式什么意思？和离散化的划分有什么区别？如何使用？我们看这个例子：

在这里插入图片描述
我们以密度这个属性为例。我们比较区别，我们会发现，密度包含17个不同的取值。（色泽、纹理、敲声这些传统的属性均只包含了3个取值）
现在我们捋一遍我们要做的事情及流程：
我们需要计算每个属性的信息增益，关于色泽、根蒂、敲声、纹理、脐部和触感我们在前面的博客已经详细说明了计算过程，现在我们要计算密度的信息增益。做法如下：
1，确定密度这个属性包含的可取值： $T_{密度}$ = ${0.244,0.294,0.351,0.381,0.420,0.459,0.518,0.574,0.600,0.621,0.636,0.648,0.661,0.681,0.708,0.746}$ 这16个可取值就是把表格中的密度从小到大排序后，相邻两个数字的平均值。
2，计算根节点的信息熵：
$Ent(D)=-\sum_{k=1}^{2}p_{k}log_{2}p_{k}=-(\frac{8}{17}log_{2}\frac{8}{17}+\frac{9}{17}log_{2}\frac{9}{17})=0.998$
3，从 $t = 0.244$ 开始，计算这16个可取值的信息熵：

在这里插入图片描述
$Ent(D_{t}^{-})=-(0*log_{2}*0+1*log_{2}*1)=0$
$Ent(D_{t}^{+})=-(\frac{8}{16}*log_{2}*\frac{8}{16}+\frac{8}{16}*log_{2}*\frac{8}{16})=1$
$Gain(D,a,t)=Gain(D,\rho ,0.244)=0.998-(\frac{1}{17}*0+\frac{16}{17}*1)=0.057$