XGBoost

最新推荐文章于 2023-04-24 16:35:26 发布

小码爱撞墙

最新推荐文章于 2023-04-24 16:35:26 发布

阅读量4.7w

点赞数

分类专栏：机器学习文章标签： tensorflow 机器学习

本文链接：https://blog.csdn.net/Stybill_LV_/article/details/110857624

版权

机器学习专栏收录该内容

22 篇文章 2 订阅

订阅专栏

基础模型代码

def xgboost_Classifier(train, trainLabel, test):


    gbm = xgb.XGBClassifier(silent=1, max_depth=8,objective='binary:logitraw',\
                            min_child_weight=1, subsample=0.5,colsample_bytree=0.8,\
                            reg_lambda=0.8,scale_pos_weight=1,\
                            n_estimators=100, learning_rate=0.05,alpha=0.1)
    gbm.fit(np.array(train), np.array(trainLabel))
    pred = gbm.predict(np.array(test))


    return pred

xgboost中XGBClassifier(）参数详解

n_estimatores
    含义：总共迭代的次数，即决策树的个数
    调参：
early_stopping_rounds
    含义：在验证集上，当连续n次迭代，分数没有提高后，提前终止训练。
    调参：防止overfitting。
max_depth
    含义：树的深度，默认值为6，典型值3-10。
    调参：值越大，越容易过拟合；值越小，越容易欠拟合。
min_child_weight
    含义：默认值为1,。
    调参：值越大，越容易欠拟合；值越小，越容易过拟合（值较大时，避免模型学习到局部的特殊样本）。
subsample
    含义：训练每棵树时，使用的数据占全部训练集的比例。默认值为1，典型值为0.5-1。
    调参：防止overfitting。
colsample_bytree
    含义：训练每棵树时，使用的特征占全部特征的比例。默认值为1，典型值为0.5-1。
    调参：防止overfitting。

学习任务参数

learning_rate
    含义：学习率，控制每次迭代更新权重时的步长，默认0.3。
    调参：值越小，训练越慢。
    典型值为0.01-0.2。
objective 目标函数
    回归任务
        reg:linear (默认)
        reg:logistic 
    二分类
        binary:logistic     概率 
        binary：logitraw   类别
    多分类
        multi：softmax  num_class=n   返回类别
        multi：softprob   num_class=n  返回概率
    rank:pairwise 
eval_metric
    回归任务(默认rmse)
        rmse--均方根误差
        mae--平均绝对误差
    分类任务(默认error)
        auc--roc曲线下面积
        error--错误率（二分类）
        merror--错误率（多分类）
        logloss--负对数似然函数（二分类）
        mlogloss--负对数似然函数（多分类）

gamma
    惩罚项系数，指定节点分裂所需的最小损失函数下降值。
    调参：
alpha
    L1正则化系数，默认为1
lambda
    L2正则化系数，默认为1