决策树算法详解：属性选择与信息增益-CSDN博客

本文链接：https://blog.csdn.net/Lollipop66/article/details/110475332

一、废话（可不看）

最近在复习整理（重学）一些算法的相关知识，最先看的那肯定就是决策树了，而很多人就在第一个决策树这放弃了，当然是少数奥，我就是为了拯救那少数而生的！（我的废话好多）

二、啥是决策树？

首先说啥玩意是决策树，英文名叫Decision Tree（DT），你第一眼看决策树这几个字，肯定知道它就是个树模型。那么说到树模型你又会想到根节点、内部节点、叶子节点。在DT中，而我们的目标就是选择一个很好的属性对样本进行划分，保证其准确率。根节点包含了所有样本，内部节点代表用哪个属性去分裂，或者说代表在某个属性中哪个范围进行分裂，而叶子节点代表的是样本的类别或者值。

在这里属性（特征）的类型分为二种，一种是离散型的，另一种是连续的。比如西瓜的大小，分为大和小二种，类似这样的特征就是离散型的特征。再比如西瓜的重量，2kg、2.2kg...，这种数值型的特征。我们这里先暂时讨论连续值如何处理，后续会单独讨论连续型的特征如何处理。针对这二种属性又有不同的分裂方式。这是属性值的不同。我们后续先讨论离散的属性如何分裂，连续型的我们会单独拉出来解释如何分裂

属性值分为离散和连续的，而label也分为离散和连续的。由于label不同，又将其分为分类树和回归树。再来带你整明白啥是分类树，啥是回归树。你可以先有这么个印象，分类树的label是离散值，回归树的label是连续值。

三、分类树

说完了DT的每个部分是咋回事，再来说下他是怎么分类的，这里先说分类树。估计你会有这样几个问题，没估计到的先自行脑补一下。

Problem1，它是怎么判断先根据哪个属性进行分类的？
Problem2，如果有的属性包含连续值怎么划分？
Problem3，缺失值得如何处理？
Problem4，怎么判定停止划分，该节点变成叶子节点？
Problem5，听说DT比较容易过拟合，如果过拟合咋办？
Problem6，测试集如何评测？

我来逐一带你整的明明白白的。

Problem1. 怎么判断先根据那个属性进行分类？（这里先说离散的属性值）

这里主要有几个衡量指标，信息熵、条件熵、信息增益、信息增益率、基尼系数、误分类率，让我们一个一个攻破。

我们来结合一个例子来说，给定一个数据集1，来判断女孩子要不要嫁，特征就是帅不帅、性格咋样、身高如何、上不上进。

index	帅？	性格好？	身高？	上进？	嫁？
1	帅	不好	矮	不上进	不嫁
2	不帅	好	矮	上进	不嫁
3	帅	好	矮	上进	嫁
4	不帅	爆好	高	上进	嫁
5	帅	不好	矮	上进	不嫁
6	帅	不好	矮	上进	不嫁
7	帅	好	高	不上进	嫁
8	不帅	好	中	上进	嫁
9	帅	爆好	中	上进	嫁
10	不帅	不好	高	上进	嫁
11	帅	好	矮	不上进	不嫁
12	帅	好	矮	不上进	不嫁

1）信息熵

啥叫熵？记住，它是衡量随机变量的不确定性的，啥意思？咱先不管它咋计算的，放到决策树里来说，比如，有A、B、C三个属性，C的熵最大，那么就说明用C来划分样本，他的不确定性很大。还不懂？你想，用C划分的不确定性最大，也就是他划分混乱程度最高，而我们的目的是分类，分成类别，让他更加混乱了，所以不要用熵大的去划分。这里有一个西瓜书里提到的纯度的概念，简单来说，熵越大、混乱程度

来，再来看他的公式（节点t的熵）：

（公式 1）

表示在节点 t 中 i 类样本所占的比例。

我们在结合上面数据集来说，我们算数据集整体的熵，因为我们的label是嫁或者不嫁，所以这里统计嫁或者不嫁的个数：

嫁 = {3,4,7,8,9,10}（这里直接用index代替的），共6个

不嫁 = {1,2,5,6,11,12}，也是6个

所以，

2）条件熵

条件熵就是，在某个条件下的熵，与条件概率是很相似的

先来说下条件熵，记作，他表示在X的条件下的熵。

（公式 2）

其中