import pandas as pd
import numpy as np
loans_2007=pd.read_csv("LoanStats3a.csv",skiprows=1)
half_count=len(loans_2007)/2#len()可以计算出样本总数
half_count
loans_2007=loans_2007.dropna(thresh=half_count,axis=1)#thresh=n,保留至少有 n 个非 NA 数的行
loans_2007.head()
#对数据进行预处理,去掉一些无关紧要的特征,或者相关程度太高的特征 得到loans_2007.csv
loans_2007=pd.read_csv("loans_2007.csv")
loans_2007.drop_duplicates()
loans_2007.iloc[0]
loans_2007["grade"].value_counts()
loans_2007.shape[1]
#像id等等这种特征对整个数据是没有用处的,选择删除掉
loans_2007=loans_2007.drop(["id"],axis=1)#drop函数默认删除行,axis=1才删除列
#然后发现loan_status可以作为label使用,意思就是借给了他钱,或者不借
#将其转化为数值型0,1 使用map函数
a={
"Fully Paid" : 1,"Charged Off" : 0
python--银行反欺诈模型--数据预处理
最新推荐文章于 2022-12-04 12:20:27 发布