随机森林和gbdt结合_决策树、随机森林、GBDT-CSDN博客

本文链接：https://blog.csdn.net/weixin_39605296/article/details/112050544

本文详细介绍了决策树的概念，包括分类树的定义、优缺点以及熵和信息增益等核心概念。接着，文章讨论了ID3、C4.5和CART决策树算法的不同之处，以及解决过拟合的剪枝方法。随机森林作为一种集成学习方法，通过构建多个决策树以降低过拟合风险，其工作原理和与Bagging、Boosting的关系也进行了阐述。最后，文章用一个二次函数的例子展示了决策树的应用，并简要提及回归树和提升树，特别是梯度提升决策树(GBDT)的原理和损失函数。

摘要由CSDN通过智能技术生成

概念

决策树(Decision Tree)分为两大类，回归树(Regression Decision Tree)和分类树(Classification Decision Tree)。前者用于预测实数值，如明天的温度、用户的年龄、网页的相关程度；后者用于分类标签值，如晴天/阴天/雾/雨、用户性别、网页是否是垃圾页面。这里要强调的是，前者的结果加减是有意义的，如10岁+5岁-3岁=12岁，后者则无意义，如男+男+女=到底是男是女？下面先介绍分类树，决策树一般情况下指的是分类树。

分类树是一种非线性有监督分类模型，随机森林是一种非线性有监督分类模型。线性分类模型比如说逻辑回归，可能会存在不可分问题，但是非线性分类就不存在。决策树是机器学习中最接近人类思考问题的过程的一种算法，通过若干个节点，对特征进行提问并分类(可以是二分类也可以使多分类)，直至最后生成叶节点(也就是只剩下一种属性)。

分类树是一种简单但是广泛使用的分类器。通过训练数据构建决策树，可以高效的对未知的数据进行分类。决策数有两大优点：1)决策树模型可以读性好，具有描述性，有助于人工分析；2)效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度。

信息熵：熵代表信息的不确定性，信息的不确定性越大，熵越大；比如“明天太阳从东方升起”这一句话代表的信息我们可以认为为0；因为太阳从东方升起是个特定的规律，我们可以把这个事件的信息熵约等于0；说白了，信息熵和事件发生的概率成反比：数学上把信息熵定义如下：H(X)＝H(P1，P2，…，Pn)＝-∑P(xi)logP(xi)

互信息：指的是两个随机变量之间的关联程度，即给定一个随机变量后，另一个随机变量不确定性的削弱程度，因而互信息取值最小为0，意味着给定一个随机变量对确定一另一个随机变量没有关系，最大取值为随机变量的熵，意味着给定一个随机变量，能完全消除另一个随机变量的不确定性。

一、分类决策树

一个简单的决策树示意图：

有人找我借钱(当然不太可能。。。)，借还是不借？我会结合根据我自己有没有钱、我自己用不用钱、对方信用好不好这三个特征来决定我的答案，即分成两类。

转到更普遍一点的视角，对于一些有特征的数据，如果我们能够有这么一颗决策树，我们也就能非常容易地预测样本的结论。所以问题就转换成怎么求一颗合适的决策树，也就是怎么对这些特征进行排序。

在对特征排序前先设想一下，对某一个特征进行决策时，我们肯定希望分类后样本的纯度越高越好，也就是说分支结点的样本尽可能属于同一类别。

所以在选择根节点的时候，我们应该选择能够使得“分支结点纯度最高”的那个特征。在处理完根节点后，对于其分支节点，继续套用根节点的思想不断递归，这样就能形成一颗树。这其实也是贪心算法的基本思想。那怎么量化“纯度最高”呢？熵就当仁不让了，它是我们最常用的度量纯度的指标。其数学表达式如下：

其中N表示结论有多少种可能取值，p表示在取第k个值的时候发生的概率，对于样本而言就是发生的频率/总个数。(注意log是以2为底。)比如有20个样本(X)的二分类问题，有15个样本是狗，5个样本不是狗，那么此时的熵为：

H(X)=-(0.75xlog0.75+0.25xlog0.25)=0.811；如果20个样本全部是一类，那么该样本的熵为0；如果20个样本每类10个此时熵最大。样本分布越均匀越混乱，熵越大。熵越小，说明样本越纯。扩展一下，样本X可能取值为n种(x1。。。。xn)。可以证明，当p(xi)都等于1/n 时，也就是样本绝对均匀，熵能达到最大。当p(xi)有一个为1，其他都为0时，也就是样本取值都是xi，熵最小。

1.1 决策树算法

ID3

假设在样本集X中，对于一个特征a，它可能有(a1，a2。。。an)这些取值，如果用特征a当根节点对样本集X进行划分，肯定会有n个分支结点。刚才提了，我们希望划分后，分支结点的样本越纯越好，也就是分支结点的“总熵”越小越好。由于每个分支结点的样本个数不一样，因此我们计算“总熵”时应该做一个加权，假设第i个结点样本个数为W(ai)，其在所有样本中的权值为W(ai) / W(X)。所以我们可以得到一个总熵：

这个公式代表含义一句话：加权后各个结点的熵的总和。这个值应该越小，分类后的样本纯度越高。

这时候，我们引入一个名词叫信息增益G(X，a)，意思就是a这个特征给样本带来的信息的提升。公式就是：

由于对一个样本而言，H(X)是一个固定值，因此信息增益G应该越大越好。寻找使得信息增益最大的特征作为目标结点，并逐步递归构建树，这就是ID3算法的思想。

以一个简单的例子来说明信息增益的计算：

上面的例子，我们计算一下如果以特征1作为目标结点的信息增益