决策树算法梳理

最新推荐文章于 2021-10-27 23:04:20 发布

nanshen_666888

最新推荐文章于 2021-10-27 23:04:20 发布

阅读量1k

点赞数 1

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/nanshen_666888/article/details/89000109

版权

本文深入探讨了信息论基础，包括熵、信息熵、联合熵和条件熵，以及它们在决策树算法中的作用。接着介绍了ID3、C4.5和CART三种决策树分类算法，分析了各自的优缺点和防止过拟合的手段。此外，还阐述了回归树的原理和决策树的模型评估方法。最后，详细讲解了sklearn中决策树的关键参数及其作用。

摘要由CSDN通过智能技术生成

一、信息论基础：

熵

熵是热力学中表征物质状态的参量之一，其物理意义是体系混乱程度的度量

信息熵

1948年，克劳德·爱尔伍德·香农将热力学中的熵引入信息论，所以也被称为香农熵 (Shannon entropy)，信息熵 (information entropy)。一条信息的信息量大小和它的不确定性有直接的关系。我们需要搞清楚一件非常非常不确定的事，或者是我们一无所知的事，就需要了解大量的信息。相反，如果我们对某件事已经有了较多的了解，我们就不需要太多的信息就能把它搞清楚。所以，从这个角度，我们可以认为，信息量的度量就等于不确定性的多少。

联合熵

联合熵就是度量一个联合分布的随机系统的不确定度，联合熵的物理意义是:观察一个多个随机变量的随机系统获得的信息量。下面给出两个随机变量的联合熵的定义：分布为 p(x,y)p(x,y)p(x,y) 的一对随机变量 (X,Y)(X,Y)(X,Y) ,其联合熵定义为：

H(X,Y)=−∑x∈X∑y∈Yp(x,y)logp(x,y)=E[logp(x,y)1]

条件熵

条件熵 H(Y|X) 表示在已知随机变量 X 的条件下随机变量 Y 的不确定性。条件熵 H(Y|X) 定义为 X 给定条件下 Y 的条件概率分布的熵对 X 的数学期望：

条件熵 H(Y|X)相当于联合熵 H(X,Y)减去单独的熵 H(X)，即：H(Y|X)=H(X,Y)−H(X)

因此，可以这样理解，描述 X 和 Y 所需的信息是描述 X 自己所需的信息,加上给定 X 的条件下具体化 Y 所需的额外信息。

信息增益

信息增益在决策树算法中是用来选择特征的指标，信息增益越大，则这个特征的选择性越好，在概率中定义为：待分类的集合的熵和选定某个特征的条件熵之差（这里只的是经验熵或经验条件熵，由于真正的熵并不知道，是根据样本计算出来的），公式如下：

基尼不纯度

基尼不纯度,是指将来自集合中的某种结果随机应用在集合中，某一数据项的预期误差率。

是在进行决策树编程的时候，对于混杂程度的预测中，一种度量方式。

二、决策树的不同分类算法

ID3

ID3由Ross Quinlan在1986年提出。ID3决策树可以有多个分支，但是不能处理特征值为连续的情况。决策树是一种贪心算法，每次选取的分割数据的特征都是当前的最佳选择，并不关心是否达到最优。在ID3中，每次根据“最大信息熵增益”选取当前最佳的特征来分割数据，并按照该特征的所有取值来切分，也就是说如果一个特征有4种取值，数据将被切分4份，一旦按某特征切分后，该特征在之后的算法执行中，将不再起