dmlc/xgboost使用

拚却醉颜红7

已于 2024-06-20 10:49:27 修改

阅读量310

点赞数 4

文章标签： python 开发语言机器学习

于 2024-06-19 19:32:27 首次发布

本文链接：https://blog.csdn.net/weixin_40862140/article/details/139811200

版权

环境

Centos 7.5
python 3.12.3
pip 24.0

1、安装xgboost

执行如下命令：

# Pip 21.3 以上
pip install xgboost

2、样本处理

支持多种样本文件格式，对于csv文件：

dtrain = xgb.DMatrix('train.csv?format=csv&label_column=3')
dtest = xgb.DMatrix('test.csv?format=csv&label_column=3')

其中，train.csv是用于训练的样本，test.csv是用于验证的样本

3、训练和验证

完整的训练和验证脚本：

import xgboost as xgb

# label_column 为标签在全部样本中的位置索引
dtrain = xgb.DMatrix('train.csv?format=csv&label_column=3')
dtest = xgb.DMatrix('test.csv?format=csv&label_column=3')

# 配置训练参数
param = {
	'max_depth': 12,
	'eta': 0.025,
	'gamma': 0.05,
	'alpha': 0.1,
	'lambda': 0.1,
	'eval_metric': ['auc','error'],
	'nthread': 4,
	'objective': 'binary:logistic'
}

evallist = [(dtrain, 'train'), (dtest, 'eval')]

# 树的数量
num_round = 10
bst = xgb.train(param, dtrain, num_round, evallist)

# 存储模型
bst.save_model('xgboost.model')

执行该脚本将训练的模型存储在当前目录，并打印验证结果，如下图所示：
在这里插入图片描述

4、预测

完整的预测脚本：

import xgboost as xgb

# 加载预测样本
dpred = xgb.DMatrix('pred.csv?format=csv')

# 加载模型
bst = xgb.Booster({'nthread': 4})
bst.load_model('xgboost.model')

# 预测
ypred = bst.predict(dpred)
print(ypred)