十一、探索性数据分析应用案例

1.Lending Club数据处理初步处理

  • 1.1 借贷状态数据处理
    1、借贷状态分为:Fully Paid:,Charged Off和Current,Default等。
    2、处理的规则:如果借贷状态为Fully Paid, 结果返回0,否则返回1,实现的代码如下图所示:
    在这里插入图片描述
  • 1.2 借贷期限预处理
    1、在Lending club数据中,借贷期限的数据内容为:‘n/a’,‘1 year’,‘2 years’,’>2 years’,'10+ years’等,需要根据不容期限,将期限转化为对应的数字。
    2、处理的规则如下:
    ‘< 1 year’ -> 0.5
    ‘n/a’ -> 0.5
    ‘2 years’ -> 2
    ‘10+ years’ -> 10
    根据对应的转换规则,转化的实现代码如下图所示:
    在这里插入图片描述

2 探索性数据分析的方法

  • 2.1 数字化探索-查看数据基本信息和统计信息
    在这里插入图片描述

  • 2.2 数字化探索-查看不同借贷状态的数据量
    1、使用数据:used_cols = [‘loan_amnt’, ‘term’, ‘int_rate’, ‘grade’, ‘issue_d’, ‘addr_state’, 'loan_status’]
    2、不同借贷状态的数据量:
    print(used_data['loan_status'].value_counts())
    在这里插入图片描述

  • 2.3 数字化探索-按地区州统计借贷总额
    data_group_by_state = used_data.groupby(['addr_state'])['loan_amnt'].sum()
    在这里插入图片描述

  • 2.4 数字化探索-按月统计借贷总额
    print(loan_amount_group_by_month_df.head()
    在这里插入图片描述

  • 2.5 图像化探索-按月统计借贷总额预览
    loan_amount_group_by_month_df.plot()
    plt.xlabel('日期')
    plt.ylabel('借贷总量')
    plt.title('日期 vs 借贷总量')
    plt.tight_layout()
    plt.savefig('./pics/loan_amount_vs_month.png')
    plt.show()
    在这里插入图片描述

  • 2.6 图像化探索-按地区(州)统计借贷总额预览
    data_group_by_state.plot(kind='bar')
    plt.xlabel('州')
    plt.ylabel('借贷总量')
    plt.title('州 vs 借贷总量')
    plt.tight_layout()
    plt.savefig('./pics/loan_amount_vs_state.png')
    plt.show()
    在这里插入图片描述

  • 2.7 图像化探索 -正负样本比例

    proc_filter_data['label'].value_counts().plot(kind='pie', autopct='%.2f%%')
    plt.title('正负样本比例')
    plt.tight_layout()
    plt.savefig('./pics/label_pie.png')
    plt.show()
    在这里插入图片描述

3 数据介绍

3.1 数据集详情

  1. https://www.kaggle.com/wendykan/lending-club-loan-data
  2. 数据集包含2007-2015年间的借贷数据,包含当前借贷状态(current,Late,Paid,等)以及最新的付账信息
  3. 额外的信息包括:信用评分、金融咨询次数、住址邮政编码、所在州等
  4. 该数据集包括约890,000条记录,75列数据

3.2 资源和工具库

Python资源库
cycler==0.10.0
husl==4.0.3
joblib==0.14.1
matplotlib==1.5.3
numpy==1.18.0
pandas==0.23.0
pyparsing==2.4.6
python-dateutil==2.8.1
pytz==2019.3
scikit-learn==0.22.1
scipy==1.1.0
seaborn==0.7.1
six==1.14.0
sklearn==0.0

3.3 数据清洗的步骤

  1. 读取数据集
  2. 数据处理
  3. Lending Club数据数字化探索
  4. Lending Club图像化探索

4 完成代码

6.1 项目的目录结构

在这里插入图片描述

6.2 完成代码

  • 6.2.1 data_proc_tools.py

from __future__ import division, print_function

def insepct_data(df_data):
    print('\n数据预览:')
    print(df_data.head())

    print('\n数据统计信息:')
    print(df_data.describe())

    print('\n数据集基本信息:')
    print(df_data.info())
  • 6.2.2 main.py

# -*- coding: utf-8 -*-

"""
    作者:     Guangzhan
    版本:     1.0
    项目名称:Lending Club借贷数据处理及初步分析
             Lending Club借贷数据探索性分析及可视化
"""

from __future__ import division, print_function # python2,python3
import os
import pandas as pd
import zipfile  # 压缩文件的工具

from day02.unit11.data_proc_tools import insepct_data # 导入对应的审查数据

import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib import style

style.use('ggplot')  # 设置图片显示的主题样式

# 解决matplotlib显示中文问题
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题

dataset_path = './dataset'
zip_file_name = 'loan.csv.zip'
csv_file_name = './loan.csv'


def analyze_lending_club_data(lc_data):

    # 选择列
    used_cols = ['loan_amnt', 'term', 'int_rate', 'grade', 'issue_d', 'addr_state', 'loan_status']
    used_data = lc_data[used_cols]
    # 查看数据集信息
    print('\n分析数据预览:')
    print(used_data.head())

    # 1. 查看不同借贷状态的数据量
    print('\n各借贷状的态数据量')
    print(used_data['loan_status'].value_counts())

    # 2. 按月份统计借贷金额总量
    # 转换数据类型
    print('时间数据类型转换...')
    used_data['issue_d2'] = pd.to_datetime(used_data['issue_d'])
    print('\n分析数据预览:')
    print(used_data.head())
    print('\n分析数据集基本信息:')
    print(used_data.info())

    data_group_by_date = used_data.groupby(['issue_d2']).sum()
    data_group_by_date.reset_index(inplace=True)
    data_group_by_date['issue_month'] = data_group_by_date['issue_d2'].apply(lambda x: x.to_period('M'))

    loan_amount_group_by_month = data_group_by_date.groupby('issue_month')['loan_amnt'].sum()
    # 结果转换为DataFrame
    loan_amount_group_by_month_df = pd.DataFrame(loan_amount_group_by_month).reset_index()

    # Porj 2.2: 可视化 借贷总量 vs 日期
    loan_amount_group_by_month_df.plot()
    plt.xlabel('日期')
    plt.ylabel('借贷总量')
    plt.title('日期 vs 借贷总量')
    plt.tight_layout()
    plt.savefig('./pics/loan_amount_vs_month.png')
    plt.show()

    print('\n按月统计借贷总额预览:')
    print(loan_amount_group_by_month_df.head())
    # 保存结果
    loan_amount_group_by_month_df.to_csv('./output/loan_amount_by_month.csv', index=False)

    # 3. 按地区(州)统计借贷金额总量
    data_group_by_state = used_data.groupby(['addr_state'])['loan_amnt'].sum()

    # Porj 2.2: 可视化 借贷总量 vs 州
    data_group_by_state.plot(kind='bar')
    plt.xlabel('州')
    plt.ylabel('借贷总量')
    plt.title('州 vs 借贷总量')
    plt.tight_layout()
    plt.savefig('./pics/loan_amount_vs_state.png')
    plt.show()

    # 结果转换为DataFrame
    data_group_by_state_df = pd.DataFrame(data_group_by_state).reset_index()
    print('\n按州统计借贷总额预览:')
    print(data_group_by_state_df.head())
    # 保存结果
    data_group_by_state_df.to_csv('./output/loan_amount_by_state.csv', index=False)

    # 4. 借贷评级、期限和利率的关系
    data_group_by_grade_term = used_data.groupby(['grade', 'term'])['int_rate'].mean()
    data_group_by_grade_term_df = pd.DataFrame(data_group_by_grade_term).reset_index()

    print('\n借贷评级、期限和利率关系预览:')
    print(data_group_by_grade_term_df.head())
    # 保存结果
    data_group_by_grade_term_df.to_csv('./output/intrate_by_grade_term.csv', index=False)

    # 转换为透视表
    data_group_by_grade_term_pivot = data_group_by_grade_term_df.pivot(index='grade', columns='term', values='int_rate')
    # 保存结果
    data_group_by_grade_term_pivot.to_csv('./output/intrate_by_grade_term2.csv')


def create_label(status_val):
    """
        根据status创建0, 1标签
        status_val: loan_status值
        返回
        =======
        label:  如果loan_status是'Fully Paid',返回0,否则返回1
    """
    label = 1
    if status_val == 'Fully Paid':
        label = 0
    return label


def proc_emp_length(emp_length_val):

    if emp_length_val == '< 1 year' or emp_length_val == 'n/a':
        emp_length_feat = 0.5
    elif emp_length_val == '10+ years':
        emp_length_feat = 10
    else:
        emp_length_val = str(emp_length_val)
        emp_length_feat = float(emp_length_val.rstrip(' years'))
    return emp_length_feat


def run_main():
    """
        主函数
    """
    zip_file_path = os.path.join(dataset_path, zip_file_name)
    csv_file_path = os.path.join(dataset_path, csv_file_name)

    if not os.path.exists(csv_file_path):
        # 如果不存在csv文件,解压zip文件
        with zipfile.ZipFile(zip_file_path) as zf:
            zf.extractall(dataset_path)

    # 读取数据集
    raw_data = pd.read_csv(csv_file_path)
    # 审查数据集
    insepct_data(raw_data)

    # 对lending club数据进行分析
    analyze_lending_club_data(raw_data)

    # Porj 2.2: 可视化 借贷状态分布
    df_status = raw_data.loc[raw_data['loan_status'].isin(
        ['Current', 'Charged Off', 'Default', 'Fully Paid', 'In Grace Period', 'Late (16-30 days)',
         'Late (31-120 days)'])]
    plt.xticks(rotation=90)
    plt.xlabel('借贷状态')
    sns.countplot(df_status['loan_status'], palette='Set2')
    plt.tight_layout()
    plt.savefig('./pics/loan_status.png')
    plt.show()

    # 数据处理及转换,用于后续模型的输入
    # 根据借贷状态筛选数据,只保留借贷状态为'Fully Paid', 'Charged Off'和'Default'的数据
    # 'Charged Off'和'Default'的解释请参考:https://help.lendingclub.com/hc/en-us/articles/216127747
    filter_mask = raw_data['loan_status'].isin(['Fully Paid', 'Charged Off', 'Default'])
    filter_data = raw_data[filter_mask]
    print(filter_data['loan_status'].value_counts())
    # 为数据添加 0, 1 标签,'Fully Paid' -> 0, Otherwise -> 1
    proc_filter_data = filter_data.copy()
    proc_filter_data['label'] = filter_data['loan_status'].apply(create_label)

    # Porj 2.2: 可视化 正负样本比例
    proc_filter_data['label'].value_counts().plot(kind='pie', autopct='%.2f%%')
    plt.title('正负样本比例')
    plt.tight_layout()
    plt.savefig('./pics/label_pie.png')
    plt.show()


    # 保存处理结果
    proc_filter_data.to_csv('./output/proc_loan.csv', index=False)

    if os.path.exists(csv_file_path):
        # 如果存在csv文件,删除csv文件,释放空间
        os.remove(csv_file_path)


if __name__ == '__main__':
    run_main()
	t.savefig('./pics/label_pie.png')
    plt.show()


    # 保存处理结果
    proc_filter_data.to_csv('./output/proc_loan.csv', index=False)

    if os.path.exists(csv_file_path):
        # 如果存在csv文件,删除csv文件,释放空间
        os.remove(csv_file_path)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值