XGBoost算法梳理

1、算法原理
一种提升树模型,将许多树(CART树)模型集成在一起,形成一个很强的分类器
2、损失函数
http://www.sohu.com/a/287700387_99950807
3、分裂结点算法
1暴力枚举:遍历所有特征的所有可能的分割点,计算Gain值,选取最大(Feature, label)去分裂
2近似方法:对于每个特征,只考察分位点,减少计算复杂度
4、正则化
https://blog.csdn.net/yinyu19950811/article/details/81079192

5、对缺失值处理
在XGBoost论文中关于缺失值的处理将其看作与稀疏矩阵的处理一样。在寻找split point的时候,不会对该特征为missing的样本进行遍历统计,只对该列特征值为non-missing的样本上对应的特征值进行遍历,通过这个技巧来减少了为稀疏离散特征寻找split point的时间开销。在逻辑实现上,为了保证完备性,会分别处理将missing该特征值的样本分配到左叶子结点和右叶子结点的两种情形,计算增益后选择增益大的方向进行分裂即可。可以为缺失值或者指定的值指定分支的默认方向,这能大大提升算法的效率。如果在训练中没有缺失值而在预测中出现缺失,那么会自动将缺失值的划分方向放到右子树。
6、优缺点
优点(1)不仅是CART树,还可以线性分类器(2)引入正则化,提高模型的泛化能力(3)基于预排序算法,并行训练(4)对损失函数进行二阶泰勒展开,利用了一阶和二阶导数
缺点(1)基于level-wise的分裂方式(2)预排序方法空间消耗比较大,不仅要保存特征值,也要保存特征的排序索引,同时时间消耗也大
7、应用场景
物理事件分类、网页文本分类、顾客行为预测、点击率预测、动机探测、产品分类
8、sklearn参数
data: DMatrix的数据源。当数据是字符串类型时,它表示路径libsvm格式txt文件,或者能xgboost读取的二进制文件label:训练数据的标签missing:需要以缺失值的形式表示的数据中的值weight:每个实例的权重silent:是否在构建期间打印信息feature_names:为特性设置名称feature_types:为特性设置类别nthread:从numpy从加载数据的线程数

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值