客户逾期贷款预测[8] - 特征选择(iv值、随机森林)

该博客介绍了通过IV值和随机森林进行客户逾期贷款预测的特征选择过程。首先,利用预计算的IV值筛选特征,选取0.1-0.5之间的特征。接着,运用这些特征构建模型并进行训练集和测试集划分,优化单模型并进行模型融合。在特征选择后,模型融合的评分指标普遍提升,尽管AUC除外。遇到的问题主要是XGBoost的过拟合,通过调整超参数来解决。
摘要由CSDN通过智能技术生成

任务

       分别用IV值和随机森林挑选特征,再构建模型,进行模型评估

 

1 利用iv值挑选特征

       这次暂时先用学长计算好的iv值挑选特征,之后再尝试自己计算iv值。选择iv在0.1-0.5之间的特征。

import pandas as pd
iv = pd.read_csv("iv.csv",encoding='gbk')
iv_one = iv[iv.iloc[:,1] > 0.1]
iv_one_five = iv_one[iv_one.iloc[:,1] < 0.5]
iv_one_five.iloc[:,0]

 

2 利用随机森林挑选特征

from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier()
rf.fit(X_cl, y)
rf_impc = pd.Series(rf.feature_importances_, index = X_cl.columns).sort_values(ascending=False)
fea_gini = rf_impc[:20].index

#取两者的并集
new_features = list(set(fea_iv) | set(fea_gini))
X_final = X_cl[new_features]
X
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值