前言:
最近在做信贷逾期的项目,使用了xgboost模型,在此大致记录流程,数据细节就不展开了。信贷逾期项目需要提供的用户数据信息预测是否逾期,本质上是一个二分类的问题,在此使用xgboost模型进行预测。
1.数据清洗
根据数据特点,对表格进行数据清洗,比如去除空值,去除重复值,或者缺失值用中位数进行补充等。
2.划分数据X,Y
本次为监督学习,X为数据特征,即feature,Y为target, 即是否逾期的结果。
3.划分训练集和测试集
#需要导入包
from sklearn.model_selection import train_test_split
#划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(feature, target, test_size=0.2)
4使用xgboost模型进行预测
import xgboost as xgb
xgb_model = xgb.XGBClassifier(learning_rate=0.001,
n_estimators=1000,
max_depth=6)
#XGBClassifier()括号中可以设置xgboost模型的参数,根据需要自行设置即可。
xgb_model.fit(X_train, y_train)
#fit()括号中设置训练参数,根据需要自行设置即可
5模型预测
第4步得到训练好的模型,现在可以输入格式相同的X,即feature,就可以使用模型预测了。以X_test为例。
xgb_pre = xgb_model.predict(X_test) #括号中需要输入与训练时相同的数据格式
6结果评估
比较预测的结果和真实的结果,评估模型的好坏。
from sklearn.metrics import roc_auc_score
auc_score = roc_auc_score(y_test, xgb_pre)