xgboost的算法整理

1 算法原理
xgboost是boosting 中的一种,所用到的树模型是cart tree
它的目标函数为
在这里插入图片描述第一部分是真实值和预测值的差,第二部分是正则化项,T表示叶子节点的个数,w表示叶子节点的分数,由于新生成的树要拟合上次预测的残差,当生成t颗树后,预测分数写成:
y(t)=y(t-1)+f(x)
因此将目标函数改写为
在这里插入图片描述
然后在f_t=0处的泰勒二阶展开近似
在这里插入图片描述
从而进行进一步求解
2
在寻找最佳分割点时,考虑传统的枚举每个特征的所有可能分割点的贪心法效率太低,xgboost实现了一种近似的算法。大致的思想是根据百分位法列举几个可能成为分割点的候选者,然后从候选者中根据上面求分割点的公式计算找出最佳的分割点。
xgboost考虑了训练数据为稀疏值的情况,可以为缺失值或者指定的值指定分支的默认方向,这能大大提升算法的效率
3 优缺点
特征列排序后以块的形式存储在内存中,在迭代中可以重复使用;虽然boosting算法迭代必须串行,但是在处理每个特征列时可以做到并行。
按照特征列方式存储能优化寻找最佳的分割点,但是当以行计算梯度数据时会导致内存的不连续访问,严重时会导致cache miss,降低算法效率。paper中提到,可先将数据收集到线程内部的buffer,然后再计算,提高算法的效率。
xgboost 还考虑了当数据量比较大,内存不够时怎么有效的使用磁盘,主要是结合多线程、数据压缩、分片的方法,尽可能的提高算法的效率。
4 xgboost如何处理缺失值
xgboost把缺失值当做稀疏矩阵来对待,本身在节点分裂时不考虑缺失值,然后碰到的时候,缺失值会被分到左右子树分别计算损失,然后选择最优的那个,预测时若出现了数据缺失,则默认分到右子树
5应用场景
可以用到回归,分类排序等
6 sklearn 参数

参考文献
https://www.cnblogs.com/wxquare/p/5541414.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值