DataWhale基础算法作业三：决策树相关_对给定的数据集d,具有m个属性和|d|个训练记录,证明决策树生长的计算时间最多-CSDN博客

本文链接：https://blog.csdn.net/weixin_42795083/article/details/86736558

DataWhale基础算法作业三：决策树相关

学习任务

1.信息论基础（熵联合熵条件熵信息增益基尼不纯度）
2.决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景
3.回归树原理
4. 决策树防止过拟合手段

1.基础概念（熵联合熵条件熵信息增益基尼不纯度）

在信息论与概率统计中，熵是表示随机变量不确定性的度量。
1)熵（entropy）

2）条件熵（conditional entropy）

3)联合熵

4）信息增益（information gain）

2.决策树的不同分类算法（ID3算法、C4.5、CART分类树）的原理及应用场景

1)ID3算法（分类树）
核心：在决策树各个结点上应用信息增益准则选择特征。

输入：训练数据集D，特征集A（可以从训练集中提取出来），阀值ε（用来实现提前终止）；
a.若当前节点中所有实例属于同一类Ck，则该结点作为叶子节点，并将类别Ck作为该结点的输出类；
b.若A为空，则将当前结点作为叶子节点，并将数据集中数量最多的类作为该结点输出类；
c.否则，计算所有特征的信息增益，若此时最大的信息增益小于阀值ε，则将当前结点作为叶子节点，并将数据集中数量最多的类作为该结点输出类；
d.若当前的最大信息增益大于阀值ε，则将最大信息增益对应的特征A作为最优划分特征对数据集进行划分，根据特征A的取值将数据集划分为若干个子结点；
e.对第i个结点，以Di为训练集，以Ai为特征集（之前用过的特征从特征集中去除），递归的调用前面的1- 4 步。

2）C4.5算法（分类树）
核心：在决策树各个结点上利用信息增益比来选择特征。
(训练过程参见ID3算法，只不过选择依据由最大信息增益改为信息增益比最大)

3)CART分类树
核心：用基尼指数选择最优特征，同时决定该特征的最优二值切分点。

对于给定训练数据集D，从根结点开始递归的建立二叉决策树：
a.根据数据集D中每个特征A，以及其可能的取值a,按照取值的‘是‘和‘否’将数据集分成两部分，然后计算基尼系数。
b.在所有可能的特征A以及他们所有可能的切分点a中，选择基尼指数最小的特征及其对应的切分点作为最优特征的与最优切分点。依最优特征和最优切分点，将现结点生成两个子结点，将训练数据集依特征分配到两个子结点中。
c.递归的调用1）2）步骤，直至达到停止条件

停止条件：(满足其一即可)
1)结点中的样本数小于预定的阈值;
2)样本集的基尼系数小于预定的阈值（此时基尼系数已经非常小，样本基本属于同一类），
3)结点样本中没有更多的特征。

三种算法的选择：https://blog.csdn.net/github_39261590/article/details/76546281

3.回归树原理

https://blog.csdn.net/BF02jgtRS00XKtCx/article/details/82504619

4. 决策树防止过拟合手段

https://blog.csdn.net/sinat_32043495/article/details/78729610
(1)先剪枝（prepruning）：通过提前停止树的构建而对树“剪枝”，一旦停止，节点就成为树叶。
(2)后剪枝（postpruning）：它首先构造完整的决策树，允许树过度拟合训练数据，然后对那些置信度不够的结点子树用叶子结点来代替。