集成学习（二）

最新推荐文章于 2024-05-05 19:16:43 发布

多线程

最新推荐文章于 2024-05-05 19:16:43 发布

阅读量663

点赞数

分类专栏：机器学习&&数据挖掘&&推荐系统文章标签：机器学习算法

本文链接：https://blog.csdn.net/WOJIAOSUSU/article/details/61936240

版权

机器学习&&数据挖掘&&推荐系统专栏收录该内容

37 篇文章 14 订阅

订阅专栏

　　　　　　　　　　　　　　　　　GBDT学习算法

　　GBDT是一个应用很广泛的算法，可以用来做分类、回归。在很多的数据上都有不错的效果。GBDT是由多棵回归树组成的。

　　原始的Boost算法是在算法开始的时候，为每一个样本赋上一个权重值，初始的时候，大家都是一样重要的。在每一步训练中得到的模型，会使得数据点的估计有对有错，我们就在每一步结束后，增加分错的点的权重，减少分对的点的权重，这样使得某些点如果老是被分错，那么就会被“严重关注”，也就被赋上一个很高的权重。然后等进行了N次迭代（由用户指定），将会得到N个简单的分类器（basic learner），然后我们将它们组合起来（比如说可以对它们进行加权、或者让它们进行投票等），得到一个最终的模型。

　　而Gradient Boost与传统的Boost的区别是，每一次的计算是为了减少上一次的残差(residual)（观察值与估计值之间的差值），而为了消除残差，我们可以在残差减少的梯度(Gradient)方向上建立一个新的模型。所以说，在Gradient Boost中，每个新的模型的简历是为了使得之前模型的残差往梯度方向减少，与传统Boost对正确、错误的样本进行加权有着很大的区别。

　　GBDT主要有三个概念组成。

　　（1） RegressionDecision Tree (DT,RT)

　　（2） GradientBoosting （GB）

　　（3） Shrinkage (步长)

　　损失函数描述的是模型的不靠谱程度，损失函数越大，模型越不靠谱。

　　Logistic变换：是一个平滑且将数据规范化（使得向量长度为1）的过程

　　决策树：回归决策树：最小化均方误差。

分类决策树：最大熵（信息增益，信息增益比，基尼指数）

　　Gradient Boosting ：梯度迭代。

　　思想：每一次建立模型都是在之前建立的模型损失函数的梯度下降方向上。

　　传统的boost与Gradient Boosting算法区别：

　　GB：新的模型的建立是为了使得模型之前的残差往梯度下降的方向下降。

　　Boost:对正确、错误分类的样本进行加权。

　　Shrinkage (步长)：每次走一小步逐渐逼近结果的效果，要比每次迈一大步快速逼近结果的方式更容易避免过拟合。

特点：

　　（1）GBDT几乎可用于所有的回归问题，也可以用于二分类，但是不太适合多分类。

　　（2）在引进残差的情况下，随机性以及模型不可稳定性也引入了。

XGboost与GBDT的区别（来自知乎大神的总结）：

　　（1）传统GBDT以CART作为基分类器，xgboost还支持线性分类器，这个时候xgboost相当于带L1和L2正则化项的逻辑斯蒂回归（分类问题）或者线性回归（回归问题）。

　　（2）传统GBDT在优化时只用到一阶导数信息，xgboost则对代价函数进行了二阶泰勒展开，同时用到了一阶和二阶导数。顺便提一下，xgboost工具支持自定义代价函数，只要函数可一阶和二阶求导。

　　（3）xgboost在代价函数里加入了正则项，用于控制模型的复杂度。正则项里包含了树的叶子节点个数、每个叶子节点上输出的score的L2模的平方和。从Bias-variancetradeoff角度来讲，正则项降低了模型的variance，使学习出来的模型更加简单，防止过拟合，这也是xgboost优于传统GBDT的一个特性。

　　（4）Shrinkage（缩减），相当于学习速率（xgboost中的eta）。xgboost在进行完一次迭代后，会将叶子节点的权重乘上该系数，主要是为了削弱每棵树的影响，让后面有更大的学习空间。实际应用中，一般把eta设置得小一点，然后迭代次数设置得大一点。（补充：传统GBDT的实现也有学习速率）

　　（5）列抽样（column subsampling）。xgboost借鉴了随机森林的做法，支持列抽样，不仅能降低过拟合，还能减少计算，这也是xgboost异于传统gbdt的一个特性。

　　（6）对缺失值的处理。对于特征的值有缺失的样本，xgboost可以自动学习出它的分裂方向。

　　（7）xgboost工具支持并行。boosting不是一种串行的结构吗?怎么并行的？注意xgboost的并行不是tree粒度的并行，xgboost也是一次迭代完才能进行下一次迭代的（第t次迭代的代价函数里包含了前面t-1次迭代的预测值）。xgboost的并行是在特征粒度上的。我们知道，决策树的学习最耗时的一个步骤就是对特征的值进行排序（因为要确定最佳分割点），xgboost在训练之前，预先对数据进行了排序，然后保存为block结构，后面的迭代中重复地使用这个结构，大大减小计算量。这个block结构也使得并行成为了可能，在进行节点的分裂时，需要计算每个特征的增益，最终选增益最大的那个特征去做分裂，那么各个特征的增益计算就可以开多线程进行。

　　（8）可并行的近似直方图算法。树节点在进行分裂时，我们需要计算每个特征的每个分割点对应的增益，即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分布式情况下，贪心算法效率就会变得很低，所以xgboost还提出了一种可并行的近似直方图算法，用于高效地生成候选的分割点。

　　XGBOOST优点：

　　　（1）在寻找最佳分割点时，考虑传统的枚举每个特征的所有可能分割点的贪心法效率太低，xgboost实现了一种近似的算法。大致的思想是根据百分位法列举几个可能成为分割点的候选者，然后从候选者中根据上面求分割点的公式计算找出最佳的分割点。

　　（2）xgboost考虑了训练数据为稀疏值的情况，可以为缺失值或者指定的值指定分支的默认方向，这能大大提升算法的效率，paper提到50倍。

　　（3）特征列排序后以块的形式存储在内存中，在迭代中可以重复使用；虽然boosting算法迭代必须串行，但是在处理每个特征列时可以做到并行。

　　（4）按照特征列方式存储能优化寻找最佳的分割点，但是当以行计算梯度数据时会导致内存的不连续访问，严重时会导致cache miss，降低算法效率。paper中提到，可先将数据收集到线程内部的buffer，然后再计算，提高算法的效率。

　　（5）xgboost 还考虑了当数据量比较大，内存不够时怎么有效的使用磁盘，主要是结合多线程、数据压缩、分片的方法，尽可能的提高算法的效率。