4.13

最新推荐文章于 2024-09-27 00:45:01 发布

SG_KL

最新推荐文章于 2024-09-27 00:45:01 发布

阅读量97

点赞数

分类专栏：大数据分析文章标签：大数据

本文链接：https://blog.csdn.net/SG_KL/article/details/130188909

版权

大数据分析专栏收录该内容

7 篇文章 0 订阅

订阅专栏

本文介绍了决策树的基本概念，包括熵和条件熵，以及ID3、C4.5和CART三种算法的工作原理。CART算法特别强调了二叉树结构和基尼指数的应用。此外，还讨论了决策树的剪枝策略，平衡模型的预测误差和复杂度。

摘要由CSDN通过智能技术生成

决策树(Decision Tree)是一种基本的分类和回归算法。该算法模型呈树形结构，主要由结点和有向边组成。结点又分为两种类型：内部结点和叶子结点。内部结点表示在一个属性或特征上的测试，每一个结点分枝代表一个测试输出，每一个叶子结点代表一个类别。决策树学习是以实例为基础的归纳学习。
熵：熵是表示随机变量不确定性的度量。随机变量的熵值越大则越不稳定。其公式如下：

其中，X为随机变量，n为随机变量X的不同取值个数,p i = P ( X = x i )

条件熵：条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y 的不确定性。其公式如下：

其中，p i = P ( X = x i )

ID3算法
ID3算法内部使用信息增益作为特征选择方法。信息增益表示得知特征X的信息而使得类Y的信息不确定性减少的程度，标记为g(Y,X)。其公式如下：

信息增益大的特征，具有较强的分类能力。

C4.5算法

C4.5算法内部使用信息增益比进行特征选择，是对ID3算法的一种改进。使用信息增益作为划分训练数据集的特征，存在偏向于选择取值较多的特征的问题，而信息增益比可以对该问题进行矫正。信息增益比gR(Y,X)定义为特征A对类Y的信息增益g (Y,A)与特征A的熵之比。其公式如下：

信息增益比大的特征，具有较强的分类能力。
理论上，ID3算法和C4.5算法只用于解决分类问题，并且只用于处理离散特征(连续型特征一般要先离散化)。ID3算法和C4.5算法建立的树模型是多叉树。

CART算法

CART(Classification And Regression Tree，分类与回归树)是一种应用非常广泛的决策树算法。CART算法是在给定输入变量X条件下输出随机变量Y的条件概率分布的学习方法，该方法假设决策树是二叉树，内部节点特征的取值为“是”和“否”。这样的决策树等价于递归地二分划分每个特征，将特征空间划分为有限个单元，并在这些单元上确定预测的条件概率分布。
CART决策树的生成就是递归地构造二叉树的过程。对于回归树利用平方误差最小化准则进行特征选择，对于分类树则使用基尼指数进行特征选择。基尼指数的定义如下：
在分类问题中,假设有K个类,样本点属于第k个类的概率为pk,则概率分布的基尼指数为：