决策树之五：连续变量计算过程

最新推荐文章于 2023-02-22 17:25:01 发布

牛姐姐

最新推荐文章于 2023-02-22 17:25:01 发布

阅读量5.7k

点赞数 4

分类专栏：决策树算法原理详解

本文链接：https://blog.csdn.net/qq_40875866/article/details/79508854

版权

本文深入探讨了决策树在面对连续变量时的处理方法，包括如何进行离散化、选择最佳切分点等关键步骤，旨在帮助读者理解决策树算法在实际应用中的决策过程。

摘要由CSDN通过智能技术生成

下面举例说明如何划分，给定数据集如下（数据集来自周志华《机器学习》）

可复制数据集在如下评论第一条！

对连续属性的处理如下：
1. 对特征的取值进行升序排序给定训练集D和连续属性a，假定a在D上出现了n个不同的取值，先把这些值从小到大排序
因此对于数据集中的属性“密度”，决策树开始学习时，根节点包含的17个训练样本在该属性上取值均不同。我们先把“密度”这些值从小到大排序：

0.243

0.245

0.343

0.36

0.403

0.437

0.481

0.556

0.593

0.608

0.634

0.639

0.657

0.666

0.697

0.719

0.774

根据计算Ta的公式，可得如下结果值：

(0.243+0.245)/2=0.244	(0.245+0.343)/2=0.294	(0.343+0.36)/2=0.352	(0.36+0.403)/2=0.382
(0.403+0.437)/2=0.420	(0.437+0.481)/2=0.459	(0.481+0.556)/2=0.519	(0.556+0.593)/2=0.575
(0.593+0.608)/2=0.601	(0.608+0.634)/2=0.621	(0.634+0.639)/2=0.637	(0.639+0.657)/2=0.648
(0.657+0.666)/2=0.662	(0.666+0.697)/2=0.682	(0.697+0.719)/2=0.708	(0.719+0.774)/2=0.747

0.244

0.294

0.352

0.382

0.420

0.459

0.519

0.575

0.601

0.621

0.637

0.648

0.662

0.682

0.708

0.747

2.Gain(D,a,t)是样本集D基于划分点t二分后的信息增益。划分的时候，选择使用Gain(D,a,t)最大的划分点
Ent(D)=-(8/17LOG(8/17,2)+9/17LOG(9/17,2))=0.998
记录为{a¹,a²,…,aⁿ}.基于划分点t可将D分为子集D^-_t和D⁺_t，其中D^-_t是包含那些在属性a上取值不大于t的样本，D⁺_t则是包含那些在属性a上取值大于t的样本。显然，对相邻的属性取值aⁱ与aⁱ⁺¹来说，t在区间a(aⁱ,aⁱ⁺¹）中取任意值所产生的划分结果相同。因此，对连续属性a，我们可考察包含n-1个元素的候选划分点集合