XGBoost

什么是XGBoost?

XGBoost(eXtreme Gradient Boosting)算法是Gradient Boosting算法的高效实现版本,因其在应用实践中表现出优良的效果和效率,因而被工业界广为推崇。

 

XGBoost类似于GBDT,是一个基于CART树的,由多个弱分类器经过boost框架,以负梯度为学习策略的一种集成学习方法。

 

XGBoost的数学原理

作为GB方法里的完全加强版本,我们当然要对他进行详细的介绍。

 

XGBoost目标函数定义为:

目标函数由两部分构成,第一部分用来衡量预测分数和真实分数的差距,另一部分则是正则化项。正则化项同样包括两部分,T表示叶子节点的个数,w表示叶子节点的分数"y"可以控制叶子节点的个数,"人"可以控制叶子节点的分数不会过大,防止过拟合。

 

如上所述,新生成的树是要你和上次预测的残差的,即当生成t棵树后,预测可以分可以写成:

同时,可以将目标函数改写成:

然后通过泰勒公式二阶近似它:

其中g_i为一阶导数,h_i为二阶导数:

常数项对目标函数的优化不影响,可以直接去掉。简化目标函数为:

我们知道,每个样本最终会落到一个叶子节点中,所以我们可以将同一个叶子节点的样本重组起来,过程如下图:

我们可以将目标函数改写成关于叶子节点分数w的一个一元二次函数,可以直接利用顶点公式求的最优的w和目标函数公式

分枝策略

XGBoost遍历所有的特征划分点,使用上述目标函数值作为评价函数。具体做法就是分裂后的目标函数值比单子叶子节点的目标函数的增益大,同时为了限制树生长过深,还加了个阈值,只有当增益大于该阈值才进行分裂。

 

Shrinkage and Column Subsampling

XGBoost还提出了两种防止过拟合的方法:Shrinkage and Column Subsampling。

Shrinkage方法就是在每次迭代中对树的每个叶子节点的分数乘上一个缩减权重"n",这可以使得每一颗树的影响力都不会太大,留下更大的空间给后面生成的树去优化模型。

 

Column Sampling方法类似于随机森林中的选取部分特征进行建树。可分为2种。

一种是按层随机采样,在对同一层内每个节点分裂之前,先随机选择一部分特征,然后只需遍历这部分的特征,来确定最优的分割点。

另一种是随机选择特征,则建树前随机选择一部分特征然后分裂就只遍历这些特征。

一般情况下前者的效果更好。

 

近似算法(聚类思想)

对于连续型特征值,当样本数量非常大,该特征取值过多时,遍历所有取值会花费很多时间,且容易过拟合。

因此XGBoost思想是对特征进行分桶,即找到I个划分点,将位于相邻分位点之间的样本分在一个桶中。在遍历该特征的时候,只需要遍历各个分位点,从而计算最优化分。从算法伪代码中该流程还可以分为两种。

一种是全局近似,是在新生成一棵树之前就对各个特征计算分位点并划分样本,之后每次分类过程中都采用近似划分。

另一种是局部近似,具体在某一次分裂节点过程中采用近似算法。

 

XGBoost处理缺失值

我们知道对于缺失值的处理,我们一般通过中位数,均值,众数等直接填充。

但是对于XGBOOST来说它可以接受缺失值作为输入。那么他又是如何处理的呢?

首先根据non-missing的原则找出split point,然后有以下3种方式

1.计算missing值在左右子树的信息增益,选择大的方向

2.可以手动指定missing的默认方向,加快算法速度

3.训练集中没有缺失值而预测集中有,自动划分到右子树

 

剪枝

???

利用XGBoost计算特征的重要程度

XGBoost的优点

1.使用许多策略去防止过拟合

2.目标函数优化利用了损失函数关于待求函数的二阶导数

3.支持并行化,这是XGBoost的闪光点,虽然树与树之间是串行关系,但是同层级节点可并行。具体的对于某个节点,节点内选择最佳分裂点,候选分裂点计算增益用多线程并行。训练速度快

4.添加了对稀疏数据的处理

5.交叉验证,early stop,当预测结果已经很好的时候可以提前停止建树,加快训练速度

6.支持设置样本权重,该权重体现在一阶导数g和二阶导数h,通过调整权重可以去更加关注一些样本。

 

参数

 

 

参考

xgboost如何处理缺失值:https://www.jianshu.com/p/5b8fbbb7e754

RF、GBDT、XGBoost特征选择方法:https://blog.csdn.net/u014035615/article/details/79612827

使用python中的xgboost实现功能重要性和功能选择:http://www.shujuren.org/article/625.html

XGBoost参数调优的完整指南及实战:https://blog.csdn.net/u010665216/article/details/78532619

一文读懂机器学习大杀器XGBoost原理https://zhuanlan.zhihu.com/p/40129825

XGBoost特征重要性的实现原理:https://www.zhihu.com/question/63728763

xgboost.Booster.get_score:https://xgboost.readthedocs.io/en/latest/python/python_api.html?highlight=get_score#xgboost.Booster.get_score

XGBoost参数完全指南:https://blog.csdn.net/u013829973/article/details/78436727

  • 2
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值