这是对前一个项目:预测贷款用户是否逾期的数据进行提前准备工作,即特征处理,主要包括数据类型转换和缺失值处理。
一、特征处理
对拿到的金融数据进行直观分析,删除无关特征,避免过拟合
# 删除无关信息
dataset = dataset.drop(["custid","trade_no","bank_card_no","id_name","first_transaction_time","latest_query_time","loans_latest_time","source"],axis=1)
或者用计算机分析每一列数据,若值俩俩互不相同,则判断为无关变量,删除
for i in dataset.columns:
count = dataset[i].count()
if len(list(dataset[i].unique())) in [1,count,count-1]:
dataset.drop(i,axis = 1,inplace=True )
二、数据类型转换
数值型数据
对于student_feature列,我们进行NAN转成0,2转为0
dataset["student_feature"] = dataset["student_feature"].fillna(0)
dataset["student_feature"] = dataset["student_feature&