1.Lending Club数据处理初步处理
- 1.1 借贷状态数据处理
1、借贷状态分为:Fully Paid:,Charged Off和Current,Default等。
2、处理的规则:如果借贷状态为Fully Paid, 结果返回0,否则返回1,实现的代码如下图所示:
- 1.2 借贷期限预处理
1、在Lending club数据中,借贷期限的数据内容为:‘n/a’,‘1 year’,‘2 years’,’>2 years’,'10+ years’等,需要根据不容期限,将期限转化为对应的数字。
2、处理的规则如下:
‘< 1 year’ -> 0.5
‘n/a’ -> 0.5
‘2 years’ -> 2
‘10+ years’ -> 10
根据对应的转换规则,转化的实现代码如下图所示:
2 探索性数据分析的方法
-
2.1 数字化探索-查看数据基本信息和统计信息
-
2.2 数字化探索-查看不同借贷状态的数据量
1、使用数据:used_cols = [‘loan_amnt’, ‘term’, ‘int_rate’, ‘grade’, ‘issue_d’, ‘addr_state’, 'loan_status’]
2、不同借贷状态的数据量:
print(used_data['loan_status'].value_counts())
-
2.3 数字化探索-按地区州统计借贷总额
data_group_by_state = used_data.groupby(['addr_state'])['loan_amnt'].sum()
-
2.4 数字化探索-按月统计借贷总额
print(loan_amount_group_by_month_df.head()
-
2.5 图像化探索-按月统计借贷总额预览
loan_amount_group_by_month_df.plot()
plt.xlabel('日期')
plt.ylabel('借贷总量')
plt.title('日期 vs 借贷总量')
plt.tight_layout()
plt.savefig('./pics/loan_amount_vs_month.png')
plt.show()
-
2.6 图像化探索-按地区(州)统计借贷总额预览
data_group_by_state.plot(kind='bar')
plt.xlabel('州')
plt.ylabel('借贷总量')
plt.title('州 vs 借贷总量')
plt.tight_layout()
plt.savefig('./pics/loan_amount_vs_state.png')
plt.show()
-
2.7 图像化探索 -正负样本比例
proc_filter_data['label'].value_counts().plot(kind='pie', autopct='%.2f%%')
plt.title('正负样本比例')
plt.tight_layout()
plt.savefig('./pics/label_pie.png')
plt.show()
3 数据介绍
3.1 数据集详情
- https://www.kaggle.com/wendykan/lending-club-loan-data
- 数据集包含2007-2015年间的借贷数据,包含当前借贷状态(current,Late,Paid,等)以及最新的付账信息
- 额外的信息包括:信用评分、金融咨询次数、住址邮政编码、所在州等
- 该数据集包括约890,000条记录,75列数据
3.2 资源和工具库
Python资源库
cycler==0.10.0
husl==4.0.3
joblib==0.14.1
matplotlib==1.5.3
numpy==1.18.0
pandas==0.23.0
pyparsing==2.4.6
python-dateutil==2.8.1
pytz==2019.3
scikit-learn==0.22.1
scipy==1.1.0
seaborn==0.7.1
six==1.14.0
sklearn==0.0
3.3 数据清洗的步骤
- 读取数据集
- 数据处理
- Lending Club数据数字化探索
- Lending Club图像化探索
4 完成代码
6.1 项目的目录结构
6.2 完成代码
- 6.2.1 data_proc_tools.py
from __future__ import division, print_function
def insepct_data(df_data):
print('\n数据预览:')
print(df_data.head())
print('\n数据统计信息:')
print(df_data.describe())
print('\n数据集基本信息:')
print(df_data.info())
- 6.2.2 main.py
# -*- coding: utf-8 -*-
"""
作者: Guangzhan
版本: 1.0
项目名称:Lending Club借贷数据处理及初步分析
Lending Club借贷数据探索性分析及可视化
"""
from __future__ import division, print_function # python2,python3
import os
import pandas as pd
import zipfile # 压缩文件的工具
from day02.unit11.data_proc_tools import insepct_data # 导入对应的审查数据
import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib import style
style.use('ggplot') # 设置图片显示的主题样式
# 解决matplotlib显示中文问题
plt.rcParams['font.sans-serif'] = ['SimHei'] # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False # 解决保存图像是负号'-'显示为方块的问题
dataset_path = './dataset'
zip_file_name = 'loan.csv.zip'
csv_file_name = './loan.csv'
def analyze_lending_club_data(lc_data):
# 选择列
used_cols = ['loan_amnt', 'term', 'int_rate', 'grade', 'issue_d', 'addr_state', 'loan_status']
used_data = lc_data[used_cols]
# 查看数据集信息
print('\n分析数据预览:')
print(used_data.head())
# 1. 查看不同借贷状态的数据量
print('\n各借贷状的态数据量')
print(used_data['loan_status'].value_counts())
# 2. 按月份统计借贷金额总量
# 转换数据类型
print('时间数据类型转换...')
used_data['issue_d2'] = pd.to_datetime(used_data['issue_d'])
print('\n分析数据预览:')
print(used_data.head())
print('\n分析数据集基本信息:')
print(used_data.info())
data_group_by_date = used_data.groupby(['issue_d2']).sum()
data_group_by_date.reset_index(inplace=True)
data_group_by_date['issue_month'] = data_group_by_date['issue_d2'].apply(lambda x: x.to_period('M'))
loan_amount_group_by_month = data_group_by_date.groupby('issue_month')['loan_amnt'].sum()
# 结果转换为DataFrame
loan_amount_group_by_month_df = pd.DataFrame(loan_amount_group_by_month).reset_index()
# Porj 2.2: 可视化 借贷总量 vs 日期
loan_amount_group_by_month_df.plot()
plt.xlabel('日期')
plt.ylabel('借贷总量')
plt.title('日期 vs 借贷总量')
plt.tight_layout()
plt.savefig('./pics/loan_amount_vs_month.png')
plt.show()
print('\n按月统计借贷总额预览:')
print(loan_amount_group_by_month_df.head())
# 保存结果
loan_amount_group_by_month_df.to_csv('./output/loan_amount_by_month.csv', index=False)
# 3. 按地区(州)统计借贷金额总量
data_group_by_state = used_data.groupby(['addr_state'])['loan_amnt'].sum()
# Porj 2.2: 可视化 借贷总量 vs 州
data_group_by_state.plot(kind='bar')
plt.xlabel('州')
plt.ylabel('借贷总量')
plt.title('州 vs 借贷总量')
plt.tight_layout()
plt.savefig('./pics/loan_amount_vs_state.png')
plt.show()
# 结果转换为DataFrame
data_group_by_state_df = pd.DataFrame(data_group_by_state).reset_index()
print('\n按州统计借贷总额预览:')
print(data_group_by_state_df.head())
# 保存结果
data_group_by_state_df.to_csv('./output/loan_amount_by_state.csv', index=False)
# 4. 借贷评级、期限和利率的关系
data_group_by_grade_term = used_data.groupby(['grade', 'term'])['int_rate'].mean()
data_group_by_grade_term_df = pd.DataFrame(data_group_by_grade_term).reset_index()
print('\n借贷评级、期限和利率关系预览:')
print(data_group_by_grade_term_df.head())
# 保存结果
data_group_by_grade_term_df.to_csv('./output/intrate_by_grade_term.csv', index=False)
# 转换为透视表
data_group_by_grade_term_pivot = data_group_by_grade_term_df.pivot(index='grade', columns='term', values='int_rate')
# 保存结果
data_group_by_grade_term_pivot.to_csv('./output/intrate_by_grade_term2.csv')
def create_label(status_val):
"""
根据status创建0, 1标签
status_val: loan_status值
返回
=======
label: 如果loan_status是'Fully Paid',返回0,否则返回1
"""
label = 1
if status_val == 'Fully Paid':
label = 0
return label
def proc_emp_length(emp_length_val):
if emp_length_val == '< 1 year' or emp_length_val == 'n/a':
emp_length_feat = 0.5
elif emp_length_val == '10+ years':
emp_length_feat = 10
else:
emp_length_val = str(emp_length_val)
emp_length_feat = float(emp_length_val.rstrip(' years'))
return emp_length_feat
def run_main():
"""
主函数
"""
zip_file_path = os.path.join(dataset_path, zip_file_name)
csv_file_path = os.path.join(dataset_path, csv_file_name)
if not os.path.exists(csv_file_path):
# 如果不存在csv文件,解压zip文件
with zipfile.ZipFile(zip_file_path) as zf:
zf.extractall(dataset_path)
# 读取数据集
raw_data = pd.read_csv(csv_file_path)
# 审查数据集
insepct_data(raw_data)
# 对lending club数据进行分析
analyze_lending_club_data(raw_data)
# Porj 2.2: 可视化 借贷状态分布
df_status = raw_data.loc[raw_data['loan_status'].isin(
['Current', 'Charged Off', 'Default', 'Fully Paid', 'In Grace Period', 'Late (16-30 days)',
'Late (31-120 days)'])]
plt.xticks(rotation=90)
plt.xlabel('借贷状态')
sns.countplot(df_status['loan_status'], palette='Set2')
plt.tight_layout()
plt.savefig('./pics/loan_status.png')
plt.show()
# 数据处理及转换,用于后续模型的输入
# 根据借贷状态筛选数据,只保留借贷状态为'Fully Paid', 'Charged Off'和'Default'的数据
# 'Charged Off'和'Default'的解释请参考:https://help.lendingclub.com/hc/en-us/articles/216127747
filter_mask = raw_data['loan_status'].isin(['Fully Paid', 'Charged Off', 'Default'])
filter_data = raw_data[filter_mask]
print(filter_data['loan_status'].value_counts())
# 为数据添加 0, 1 标签,'Fully Paid' -> 0, Otherwise -> 1
proc_filter_data = filter_data.copy()
proc_filter_data['label'] = filter_data['loan_status'].apply(create_label)
# Porj 2.2: 可视化 正负样本比例
proc_filter_data['label'].value_counts().plot(kind='pie', autopct='%.2f%%')
plt.title('正负样本比例')
plt.tight_layout()
plt.savefig('./pics/label_pie.png')
plt.show()
# 保存处理结果
proc_filter_data.to_csv('./output/proc_loan.csv', index=False)
if os.path.exists(csv_file_path):
# 如果存在csv文件,删除csv文件,释放空间
os.remove(csv_file_path)
if __name__ == '__main__':
run_main()
t.savefig('./pics/label_pie.png')
plt.show()
# 保存处理结果
proc_filter_data.to_csv('./output/proc_loan.csv', index=False)
if os.path.exists(csv_file_path):
# 如果存在csv文件,删除csv文件,释放空间
os.remove(csv_file_path)