数据挖掘：贷款违约预测

最新推荐文章于 2022-03-02 21:29:20 发布

原创最新推荐文章于 2022-03-02 21:29:20 发布 · 1.2k 阅读

20 ·

CC 4.0 BY-SA版权

文章标签：

#数据挖掘 #python

数据分析与挖掘专栏收录该内容

13 篇文章

订阅专栏

数据

数据来源阿里天池学习赛：零基础入门金融风控-贷款违约预测

代码

import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.metrics import roc_auc_score,accuracy_score
import joblib
from catboost import CatBoostClassifier
%matplotlib inline

filename = r'C:\Users\liuhao\Desktop\新建文件夹\贷款违约预测\train.csv'
filename1 = r'C:\Users\liuhao\Desktop\新建文件夹\贷款违约预测\testA.csv'
data = pd.read_csv(filename)
data1 = pd.read_csv(filename1)
combined_data = pd.concat([data.drop(labels='isDefault',axis=1),data1],axis=0,sort=True)

def feature_cut(data,fea_list):
    for feature in fea_list:
        data[feature+'_cut'] = pd.qcut(data[feature],q=200,duplicates='drop')
        feature_value = data[feature+'_cut'].values.to_list()
        le = LabelEncoder()
        data[feature+'_cut'] = le.fit(feature_value).transform(feature_value)

fea_list = ['loanAmnt','installment','annualIncome','dti','revolBal','revolUtil']

cat_features = ['term','verificationStatus','employmentLength','initialListStatus', 
            	'grade', 'subGrade', 'issueDate_year','regionCode',
            	'issueDate_month', 'earliesCreditLine_year', 'postCode','earliesCreditLine_month',
            	'employmentTitle', 'purpose','title','loanAmnt_cut','installment_cut', 
            	'annualIncome_cut', 'dti_cut', 'revolBal_cut', 'revolUtil_cut']

employmentLength_dict = {'1 year':1,'10+ years':10,'2 years':2,'3 years':3,'4 years':4,
                         '5 years':5,'6 years':6,'7 years':7,'8 years':8,'9 years':9,'< 1 year':0}

month_dict = {'Aug': 8, 'May': 5, 'Jul': 7, 'Oct': 10, 'Dec': 12, 'Apr': 4, 
			  'Jan': 1, 'Nov': 11, 'Feb': 2,'Mar': 3, 'Jun': 6, 'Sep': 9}

feature_cut(combined_data,fea_list)
combined_data['employmentLength'] = combined_data['employmentLength'].map(employmentLength_dict)
combined_data['issueDate_year'] = combined_data['issueDate'].apply(lambda x:int(x.split('-')[0]))
combined_data['issueDate_month'] = combined_data['issueDate'].apply(lambda x:int(x.split('-')[1]))
combined_data['earliesCreditLine_year'] = combined_data['earliesCreditLine'].apply(lambda x: int(x.split('-')[1]))
combined_data['earliesCreditLine_month'] = combined_data['earliesCreditLine'].apply(lambda x: x.split('-')[0]).map(month_dict)
combined_data['year_gap'] = combined_data['issueDate_year'] - combined_data['earliesCreditLine_year']
combined_data['loan_annualIncome'] = combined_data['loanAmnt']/(combined_data['annualIncome']+1)
combined_data['pubRec_ratio'] = combined_data['pubRec']/(combined_data['pubRecBankruptcies']+1)
combined_data['openAcc_totalAcc'] = combined_data['openAcc']/combined_data['totalAcc']
combined_data['monthlyincome'] = combined_data['annualIncome']/12
combined_data['installment_monthlyincome'] = combined_data['installment']/(combined_data['monthlyincome']+1)

train = combined_data[:data.shape[0]]
test = combined_data[data.shape[0]:]

X = train.drop(labels=['loanAmnt','installment','annualIncome','dti','revolBal','revolUtil',
                       'id','issueDate', 'earliesCreditLine','pubRecBankruptcies',
                   	   'openAcc','policyCode','totalAcc','applicationType',
                       'ficoRangeHigh','n3','n10','n12','n0','n7'],axis=1)
y = data['isDefault']

X[cat_features] = X[cat_features].astype(str)

x_train,x_test,y_train,y_test = train_test_split(X,y,random_state=15,shuffle=True)

model = CatBoostClassifier(iterations=200,
                           learning_rate=0.1,
                           max_depth=8,
                           loss_function='Logloss',
                           eval_metric='AUC')
model.fit(x_train,y_train,cat_features=cat_features,eval_set=(x_test,y_test),verbose=False,use_best_model=True)

predprob = model.predict_proba(x_test)
print(model.score(x_train,y_train))
print(model.score(x_test,y_test))
print(roc_auc_score(y_test,predprob[:,1]))
print(model.score(X,y))

importance = list(zip(model.feature_names_,model.feature_importances_))
print(sorted(importance,key=lambda x:x[1],reverse=True))

xtest = test.drop(labels=['loanAmnt','installment','annualIncome','dti','revolBal','revolUtil',
                       'id','issueDate', 'earliesCreditLine','pubRecBankruptcies',
                   'openAcc','policyCode','totalAcc','applicationType',
                    'ficoRangeHigh','n3','n10','n12','n0','n7'],axis=1)

xtest[cat_features] = xtest[cat_features].astype(str)
predprob1 = model.predict_proba(xtest)

result = pd.DataFrame()
result['id'] = test['id']
result['isDefault'] = predprob1[:,1]
result.to_csv('catboost.csv',index=0)