随机森林来进行特征选择(Python代码实现)

参考来源:https://www.toutiao.com/a6644771438534328836/

当数据集的特征过多时,容易产生过拟合,可以用随机森林来在训练之后可以产生一个各个特征重要性的数据集,利用这个数据集,确定一个阈值,选出来对模型训练帮助最大的一些特征,筛选出重要变量后可以再训练模型;

数据集是从kaggle网站上下载的lend club数据,通过随机森林筛选出对预测是否逾期的重要性变量:

# 首先导入数据,查看数据集的基本情况:
df = pd.read_csv('loan.csv')
df.head()
df.shape
数据集共887379行,74列

å©ç¨éæºæ£®ææ¥è¿è¡ç¹å¾éæ©ï¼Python代ç å®ç°ï¼

#然后转换目标值,将Charged Off和Late (31-120 days归为坏客户1,其余归为0
df['loan_status'].unique()
df['y'] = df['loan_status'].map(lambda x: int((x == 'Charged Off') | (x == 'Late (31-120 days')))
df.drop('loan_status', axis
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值