xgboost算法

xgboost

  • xgboost全称是eXtreme Gradient Boosting,可译为极限梯度提升算法。它由陈天奇所设计,致力于让提升树突破自身的计算极限,以实现运算快速,性能优秀的工程目标。和传统的梯度提升算法相比,XGBoost进行了很多改进,并且已经认为是在分类和回归上都拥有超高性能的先进评估器
  • xgboost documents:https://xgboost.readthedocs.io/en/latest/index.html

1.使用xgboost

  • 方式一【直接使用xgboost库自己的建模流程】

在这里插入图片描述

  • 最核心的是DMatrix这个读取类,以及train()这个用于训练的类。与sklearn把所有的参数都写在类中的方式不同,xgboost库中必须先使用字典设置参数集,在使用train()来将参数集输入,再进行训练【xgboost涉及的参数太多,全部写在xgb.train()容易出错】。

在这里插入图片描述

  • 方式二:【使用XGB库中的sklearn的API】
    在这里插入图片描述

  • 两种使用方式的区别

    • 使用xgboost中设定的建模流程来建模,和使用sklearnAPI中的类来建模,模型效果比较相似,但是xgboost库本身的运算速度(尤其是交叉验证)以及调参手段比sklearn简单

2.梯度提升算法

  • XGBoost的基础是梯度提升算法

  • 梯度提升(Gradient boosting):

    • 是构建预测模型的最强大的技术之一,是集成算法中提升法(Boosting)的代表算法。集成算法通过在数据上构建多个弱评估器,汇总所有弱评估器的建模结果,以获取比单个模型更好的回归或分类表现
      • 集成不同弱评估器的方法很多;例如,一次性建立多个平行独立的弱评估器的装袋法;逐一构建弱评估器,经过多次迭代逐渐积累多个弱评估器的提升法
    • 梯度提升法是集成算法中提升法(Boosting)的代表算法
  • 基于梯度提升的回归和分类来说,建模过程大致如下

    • 最开始建立一棵树,然后逐渐迭代,每次迭代过程中都增加一棵树,逐渐形成众多树模型集成的强评估器
      在这里插入图片描述

3.XGB算法原理

  • XGB中构建的弱学习器为CART树,意味着XGBoost中所有的树都是二叉的

  • XGB中的预测值是所有弱分类器上的叶子结点权重直接求和得到的

在这里插入图片描述

  • 这个集成模型XGB中共有k棵决策树,整个模型在这个样本i上给出的预测结果为:

在这里插入图片描述

  • yi(k)表示k棵树叶子结点权重的累和或XGB模型返回的预测结果,K表示树的总和,fk(xi)表示第K棵决策树返回的叶子结点的权重(第K棵树返回的结果)

4.参数

  • 有放回随机抽样:subsample

    • 控制随机抽样,在xgbsklearn中,参数默认为1且不为0,说明我们无法控制模型是否进行随机有放回抽样,只能控制抽样抽出来的样本量大概是多少,通常在样本量很大的时候来调整和使用
  • 迭代决策树:eta

    • 使用参数learning_rate来表示迭代的速率。learn_rate值越大表示迭代速度越快,算法的极限会很快被达到,有可能无法收敛到真正最佳的损失值,learn_rate越小就越有可能找到更加精确的最佳值,但是迭代速度会变慢,耗费更多的的运算空间和成本
  • 选择弱评估器:booster
    在这里插入图片描述

5.示例

  • xgb与随机森林对比

    from xgboost import XGBRegressor as XGBR
    from sklearn.ensemble import RandomForestRegressor as RFR
    from sklearn.datasets import load_boston
    from sklearn.metrics import mean_squared_error as MSE
    from sklearn.model_selection import KFold,cross_val_score,train_test_split
    data=load_boston()
    feature=data.data
    target=data.target
    x_train,x_test,y_train,y_test=train_test_split(feature,target,test_size=0.3,random_state=420)
    #xgboost
    reg=XGBR(n_estimators=100).fit(x_train,y_train)
    reg.score(x_test,y_test)  #0.9050988968414799
    MSE(y_test,reg.predict(x_test))  #7.466827353555599
    cross_val_score(reg,x_train,y_train,cv=5).mean()#0.7995062821902295
    
    #随机森林
    rfr=RFR(n_estimators=100).fit(x_train,y_train)
    rfr.score(x_test,y_test)  #0.8732682957243149
    MSE(y_test,rfr.predict(x_test)) #12.016450651315784
    cross_val_score(rfr,x_train,y_train,cv=5).mean()#0.8011385218554434
    
  • n_eatimators

    from xgboost import XGBRegressor as XGBR
    from sklearn.datasets import load_boston
    from sklearn.model_selection import KFold,cross_val_score,train_test_split
    %matplotlib inline
    import matplotlib.pyplot as plt
    data=load_boston()
    feature=data.data
    target=data.target
    x_train,x_test,y_train,y_test=train_test_split(feature,target,test_size=0.3,random_state=420)
    model_count=[]
    scores=[]
    for i in range(100,300):
        xgb=XGBR(n_estimators=i).fit(x_train,y_train)
        score=xgb.score(x_test,y_test)
        scores.append(score)
        model_count.append(i)
    plt.plot(model_count,scores)
    

在这里插入图片描述

  • subsample

    from xgboost import XGBRegressor as XGBR
    from sklearn.datasets import load_boston
    from sklearn.model_selection import KFold,cross_val_score,train_test_split
    import numpy as np
    %matplotlib inline
    import matplotlib.pyplot as plt
    
    data=load_boston()
    feature=data.data
    target=data.target
    x_train,x_test,y_train,y_test=train_test_split(feature,target,test_size=0.3,random_state=420)
    subs=[]
    scores=[]
    for i in np.linspace(0.05,1,20):
        xgb=XGBR(n_estimators=182,subsample=i).fit(x_train,y_train)
        score=xgb.score(x_test,y_test)
        subs.append(i)
        scores.append(score)
    plt.plot(subs,scores)
    

在这里插入图片描述

  • learning_rate

    from sklearn.model_selection import KFold,cross_val_score,train_test_split
    import numpy as np
    %matplotlib inline
    import matplotlib.pyplot as plt
    
    data=load_boston()
    feature=data.data
    target=data.target
    x_train,x_test,y_train,y_test=train_test_split(feature,target,test_size=0.3,random_state=420)
    rates=[]
    scores=[]
    for i in np.linspace(0.05,1,20):
        xgb=XGBR(n_estimators=182,subsample=0.9,learning_rate=i).fit(x_train,y_train)
        score=xgb.score(x_test,y_test)
        rates.append(i)
        scores.append(score)
    plt.plot(rates,scores)
    

在这里插入图片描述

  • booster

    from sklearn.model_selection import KFold,cross_val_score,train_test_split
    import numpy as np
    %matplotlib inline
    import matplotlib.pyplot as plt
    
    data=load_boston()
    feature=data.data
    target=data.target
    x_train,x_test,y_train,y_test=train_test_split(feature,target,test_size=0.3,random_state=420)
    for booster in ['gbtree','gblinear','dart']:
        reg=XGBR(n_estimators=180,learning_rate=0.1,random_state=420,booster=booster).fit(x_train,y_train)
        print(booster)
        print(reg.score(x_test,y_test))
    # gbtree
    # 0.9260984369386971
    # gblinear
    # 0.6499751962020093
    # dart
    # 0.9260984459922119
    
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

荼靡~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值