零基础入门金融风控-贷款违约预测TASK 3
3.特征工程
3.1时间格式处理
issueDate属性:
// 查看贷款发放的最早月份
train.sort_index(by='issueDate')['issueDate'];//按照issueDate索引排序;
// 查询到最早的日期为:
2007-06-01;
转换成时间格式:
for data in [train, testA]:
data['issueDate'] = pd.to_datetime(data['issueDate'],format='%Y-%m-%d')
startdate = datetime.datetime.strptime('2007-06-01', '%Y-%m-%d')
#构造时间特征
data['issueDateDT'] = data['issueDate'].apply(lambda x: x-startdate).dt.days
employmentLength属性:
// 查询得到最早的月份为:
train['employmentLength'].value_counts(dropna=False).sort_index();
//dropna=False 表示保留NAN;
查询结果:
1 year 52489
10+ years 262753
2 years 72358
3 years 64152
4 years 47985
5 years 50102
6 years 37254
7 years 35407
8 years

本文探讨了阿里云天池学习赛中金融风控任务的特征工程,包括时间格式处理、类别特征和连续型变量的处理。在时间格式处理方面,关注了issueDate、employmentLength和earliestCreditLine属性。对于连续型变量,建议进行离散化,如等距/等频分箱,并介绍了无监督和有监督的分箱方法。最后,讨论了特征选择的重要性,列举了Filter、Wrapper和Embedded方法,以降低模型复杂性和提高计算效率。
最低0.47元/天 解锁文章
554

被折叠的 条评论
为什么被折叠?



