阿里云天池学习赛【金融风控-贷款违约预测】task3

本文探讨了阿里云天池学习赛中金融风控任务的特征工程,包括时间格式处理、类别特征和连续型变量的处理。在时间格式处理方面,关注了issueDate、employmentLength和earliestCreditLine属性。对于连续型变量,建议进行离散化,如等距/等频分箱,并介绍了无监督和有监督的分箱方法。最后,讨论了特征选择的重要性,列举了Filter、Wrapper和Embedded方法,以降低模型复杂性和提高计算效率。
摘要由CSDN通过智能技术生成

3.特征工程

3.1时间格式处理

issueDate属性

// 查看贷款发放的最早月份
train.sort_index(by='issueDate')['issueDate']//按照issueDate索引排序;
// 查询到最早的日期为:
2007-06-01;

转换成时间格式

for data in [train, testA]:
    data['issueDate'] = pd.to_datetime(data['issueDate'],format='%Y-%m-%d')
    startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d')
    #构造时间特征
    data['issueDateDT'] = data['issueDate'].apply(lambda x: x-startdate).dt.days

employmentLength属性:

// 查询得到最早的月份为:
train['employmentLength'].value_counts(dropna=False).sort_index()//dropna=False 表示保留NAN;
查询结果:
1 year        52489
10+ years    262753
2 years       72358
3 years       64152
4 years       47985
5 years       50102
6 years       37254
7 years       35407
8 years     
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值