python 下实现xgboost 调参演示

最新推荐文章于 2024-05-11 05:19:07 发布

勤奋的郑先生

最新推荐文章于 2024-05-11 05:19:07 发布

阅读量8.8k

点赞数 4

文章标签： python xgboost

本文链接：https://blog.csdn.net/weixin_41370083/article/details/79276887

版权

基于前阵子京东金融JDD数据探索大赛比赛拿下总决赛季军的经验，发现xgboost真的是一个很好的利器，精确度的提升是很疯狂的，从最远先使用的RF模型到XGBOOST模型，精确度可以说提升了0.3的跨度。

相信很多人跟我一样都被xgboost惊艳到，今天就来记录下xgboost的调参演示，刚接触xgboost可以看看。

以下实现，我使用sklearn.datasets的make_hastie_10_2 做数据集

from sklearn.model_selection import train_test_split
from sklearn import metrics
from  sklearn.datasets  import  make_hastie_10_2
from  sklearn.ensemble  import  GradientBoostingClassifier
from xgboost.sklearn import XGBClassifier
##载入示例数据 10维度
X, y = make_hastie_10_2(random_state=0)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=0)##test_size测试集合所占比例

默认XGB参数下的AUC值和ACCURACY

auc_Score=[]
accuracy=[]
clf = XGBClassifier()
clf.fit(X_train, y_train)
y_pre= clf.predict(X_test)
y_pro= clf.predict_proba(X_test)[:,1] 
print "AUC Score : %f" % metrics.roc_auc_score(y_test, y_pro) 
print"Accuracy : %.4g" % metrics.accuracy_score(y_test, y_pre)
auc_Score.append(metrics.roc_auc_score(y_test, y_pro))
accuracy.append(metrics.accuracy_score(y_test, y_pre))

结果：

AUC Score : 0.972424
Accuracy : 0.8993

通过调参过程，来查看AUC 和ACCURACY的变化。

XGB需要调整的参数

max_depth = 5 :
- 和GBM中的参数相同，这个值为树的最大深度。
- 这个值也是用来避免过拟合的。max_depth越大，模型会学到更具体更局部的样本。
- 需要使用CV函数来进行调优。
- 典型值：3-10
min_child_weight = 1:
- 决定最小叶子节点样本权重和。
- 和GBM的 min_child_leaf 参数类似，但不完全一样。XGBoost的这个参数是最小样本权重的和，而GBM参数是最小样本总数。
- 这个参数用于避免过拟合。当它的值较大时，可以避免模型学习到局部的特殊样本。
- 但是如果这个值过高，会导致欠拟合。这个参数需要使用CV来调整。
gamma = 0:
- 在节点分裂时，只有分裂后损失函数的值下降了，才会分裂这个节点。Gamma指定了节点分裂所需的最小损失函数下降值。
- 这个参数的值越大，算法越保守。这个参数的值和损失函数息息相关，所以是需要调整的。
subsample：
- 和GBM中的subsample参数一模一样。这个参数控制对于每棵树，随机采样的比例。
- 减小这个参数的值，算法会更加保守，避免过拟合。但是，如果这个值设置得过小，它可能会导致欠拟合。
- 典型值：0.5-1
colsample_bytree：
- 和GBM里面的max_features参数类似。用来控制每棵随机采样的列数的占比(每一列是一个特征)。
- 典型值：0.5-1
scale_pos_weight = 1:
- 在各类别样本十分不平衡时，把这个参数设定为一个正值，可以使算法更快收敛。

以上是我们要进行调参的部分来优化结果（当然有时候n_estimators(迭代次数）也能起到优化作用）

一下过程我们用一步步修改的方法，来查看结果，用for 函数来列举各个调参过程，for函数我就不列举了，直接通过for得出的结果给大家列举最有参数。当然你也可以不用for 来做，可以用sklearn.moedel_selection的GridSearchCV来快速调参。

我们先从n_estimators 来定

'n_estimators':[100,200,500,1000,1500]

取1000最好

clf = XGBClassifier(
 learning_rate

最低0.47元/天解锁文章

勤奋的郑先生

关注

4
点赞
踩
45

收藏

觉得还不错? 一键收藏
2
评论
python 下实现xgboost 调参演示

基于前阵子京东金融JDD数据探索大赛比赛拿下总决赛季军的经验，发现xgboost真的是一个很好的利器，精确度的提升是很疯狂的，从最远先使用的RF模型到XGBOOST模型，精确度可以说提升了0.3的跨度。相信很多人跟我一样都被xgboost惊艳到，今天就来记录下xgboost的调参演示，刚接触xgboost可以看看。以下实现，我使用sklearn.datasets的make_hastie
复制链接

扫一扫