一、知识准备
1.1 熟悉Python的数据分析库numpy、pandas和scikit算法库
1. 2 熟悉逻辑回归和随机森林算法
二、项目主题
在银行借贷场景中,评分卡是一种以分数形式来衡量一个客户的信用风险大小的手段,它衡量向别人借钱的人(受信人,需要融资的公司)不能如期履行合同中的还本付息责任,并让借钱给别人的人(授信人,银行等金融机构), 造成经济损失的可能性。一般来说,评分卡打出的分数越高,客户的信用越好,风险越小。
这些”借钱的人“,可能是个人,有可能是有需求的公司和企业。对于企业来说,我们按照融资主体的融资用途,分
别使用企业融资模型,现金流融资模型,项目融资模型等模型。而对于个人来说,我们有”四张卡“来评判个人的信用程度:A卡,B卡,C卡和F卡。而众人常说的“评分卡”其实是指A卡,又称为申请者评级模型,主要应用于相关融资类业务中新用户的主体评级,即判断金融机构是否应该借钱给一个新用户,如果这个人的风险太高,我们可以拒 绝贷款。
三、项目目标
-
能够使用RF算法对缺失值进行补充
-
能够掌握样本不平衡问题
-
熟练掌握评分卡的分箱操作
四、知识要点
4.1 原始数据
4.1.1 导库/获取数据
%matplotlib inline
import numpy as np
import pandas as pd
data = pd.read_csv("Acard.csv",index_col=0)
#观察数据类型
data.head()
#观察数据结构
data.shape
data.info() # 每列的缺失值情况
4.1.2 去重复值
data.drop_duplicates(inplace=True)
data.index = range(data.shape[0])
data.info()
4.1.3 填补缺失值
data.isnull().sum()/data.shape[0] # data.isnull().mean()
data["NumberOfDependents"].fillna(int(data["NumberOfDependents"].mean()),inplace=True)
data.isnull().mean()
def fill_missing_rf(X, y, to_fill):
"""
X:要填补的特征矩阵
y:完整的,没有缺失值的标签
to_fill:字符串,要填补的那一列的名称/MonthlyIncome
"""
# 构建新特征矩阵和新标签
df = X.copy()
fill = df.loc[:, to_fill]
df = pd.concat([df.loc[:, df.columns != to_fill], pd.DataFrame(y)], axis=1)
#找出训练集和测试集
Ytrain = fill[fill.notnull()]
Ytest = fill[fill.isnull()]
Xtrain = df.iloc[Ytrain.index, :]
Xtest = df.iloc[Ytest.index, :]
from sklearn.ensemble import RandomForestRegressor as rfr
#用随机森林回归来填补缺失值
rfr = rfr(n_estimators=100)
rfr = rfr.fit(Xtrain, Ytrain)
Ypredict = rfr.predict(Xtest)
return Ypredict
X = data.iloc[:,1:]
y = data["SeriousDlqin2yrs"]
y_pred = fill_missing_rf(X,y,"MonthlyIncome")
#确认我们的结果合理之后,我们就可以将数据覆盖了
data.loc[data.loc[:,"MonthlyIncome"].isnull(),"MonthlyIncome"] = y_pred
y_pred.shape
4.2 描述性统计
4.2.1 处理异常值
import seaborn as sns
from matplotlib import pyplot as plt
x1=data['age']
fig,axes = plt.subplots()
axes.boxplot(x1)
axes.set_xticklabels(['age'])
data = data[data['age']>0]
data = data[data['age']<100]
data.describe([0.01,0.1,0.25,.5,.75,.9,.99])
(data["age"] == 0).sum()
data = data[data["age"] != 0]
data[data.loc[:,"NumberOfTimes90DaysLate"] > 90].count()
data = data[data.loc[:,"NumberOfTimes90DaysLate"] < 90]
data.index = range(data.shape[0])
data.info()