《Python数据科学:技术详解与商业实践》商业数据挖掘案列
import numpy as np
import pandas as pd
import os
import datetime
#数据导入
os.chdir('D:\python2\个人贷款预测模型') #设置工作路径
loanfile = os.listdir()
createVar = locals()
for i in loanfile:
if i.endswith('csv'):
createVar[i.split('.')[0]]=pd.read_csv(i,encoding='gbk')
print(i.split('.')[0])
#生成解释变量
pd.set_option('display.max_columns',8) #设置数据框最大显示列数
bad_good = {'B':1,'D':1,'A':0,'C':2}
loans['bad_good']=loans.status.map(bad_good) #对status做更改
#以贷款账号和权限账号进行连接
data2 = pd.merge(loans,disp,on='account_id',how ='left')
#以表中客户号和顾客表中客户号连接
data2 = pd.merge(data2,clients,on = 'client_id',how='left')
#以地区号与人口地区调查连接,提取居住地失业率变量
data3=pd.merge(data2,district,left_on='district_id',right_on='A1',how='left')
#将贷款表和交易表以账号号