十一、探索性数据分析应用案例

最新推荐文章于 2022-07-10 23:04:33 发布

智享AI

最新推荐文章于 2022-07-10 23:04:33 发布

阅读量2.1k

点赞数 2

分类专栏：数据挖掘文章标签：数据分析

本文链接：https://blog.csdn.net/guangzhanblog/article/details/104667476

版权

数据挖掘专栏收录该内容

42 篇文章 22 订阅

订阅专栏

1.Lending Club数据处理初步处理

1.1 借贷状态数据处理
1、借贷状态分为：Fully Paid：，Charged Off和Current,Default等。
2、处理的规则：如果借贷状态为Fully Paid，结果返回0，否则返回1,实现的代码如下图所示:
1.2 借贷期限预处理
1、在Lending club数据中，借贷期限的数据内容为：‘n/a’,‘1 year’,‘2 years’,’>2 years’,'10+ years’等，需要根据不容期限，将期限转化为对应的数字。
2、处理的规则如下：
‘< 1 year’ -> 0.5
‘n/a’ -> 0.5
‘2 years’ -> 2
‘10+ years’ -> 10
根据对应的转换规则，转化的实现代码如下图所示：

2 探索性数据分析的方法

2.1 数字化探索-查看数据基本信息和统计信息
2.2 数字化探索-查看不同借贷状态的数据量
1、使用数据：used_cols = [‘loan_amnt’, ‘term’, ‘int_rate’, ‘grade’, ‘issue_d’, ‘addr_state’, 'loan_status’]
2、不同借贷状态的数据量：
print(used_data['loan_status'].value_counts())
2.3 数字化探索-按地区州统计借贷总额
data_group_by_state = used_data.groupby(['addr_state'])['loan_amnt'].sum()
2.4 数字化探索-按月统计借贷总额
print(loan_amount_group_by_month_df.head()
2.5 图像化探索-按月统计借贷总额预览
loan_amount_group_by_month_df.plot()
plt.xlabel('日期')
plt.ylabel('借贷总量')
plt.title('日期 vs 借贷总量')
plt.tight_layout()
plt.savefig('./pics/loan_amount_vs_month.png')
plt.show()
2.6 图像化探索-按地区（州）统计借贷总额预览
data_group_by_state.plot(kind='bar')
plt.xlabel('州')
plt.ylabel('借贷总量')
plt.title('州 vs 借贷总量')
plt.tight_layout()
plt.savefig('./pics/loan_amount_vs_state.png')
plt.show()
2.7 图像化探索 -正负样本比例

proc_filter_data['label'].value_counts().plot(kind='pie', autopct='%.2f%%')
plt.title('正负样本比例')
plt.tight_layout()
plt.savefig('./pics/label_pie.png')
plt.show()

3 数据介绍

3.1 数据集详情

https://www.kaggle.com/wendykan/lending-club-loan-data
数据集包含2007-2015年间的借贷数据，包含当前借贷状态（current，Late，Paid,等）以及最新的付账信息
额外的信息包括：信用评分、金融咨询次数、住址邮政编码、所在州等
该数据集包括约890,000条记录，75列数据

3.2 资源和工具库

Python资源库
cycler==0.10.0
husl==4.0.3
joblib==0.14.1
matplotlib==1.5.3
numpy==1.18.0
pandas==0.23.0
pyparsing==2.4.6
python-dateutil==2.8.1
pytz==2019.3
scikit-learn==0.22.1
scipy==1.1.0
seaborn==0.7.1
six==1.14.0
sklearn==0.0

3.3 数据清洗的步骤

读取数据集
数据处理
Lending Club数据数字化探索
Lending Club图像化探索

4 完成代码

6.1 项目的目录结构

在这里插入图片描述

6.2 完成代码

6.2.1 data_proc_tools.py

from __future__ import division, print_function

def insepct_data(df_data):
    print('\n数据预览：')
    print(df_data.head())

    print('\n数据统计信息：')
    print(df_data.describe())

    print('\n数据集基本信息：')
    print(df_data.info())

6.2.2 main.py

# -*- coding: utf-8 -*-

"""
    作者:     Guangzhan
    版本:     1.0
    项目名称：Lending Club借贷数据处理及初步分析
             Lending Club借贷数据探索性分析及可视化
"""

from __future__ import division, print_function # python2,python3
import os
import pandas as pd
import zipfile  # 压缩文件的工具

from day02.unit11.data_proc_tools import insepct_data # 导入对应的审查数据

import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib import style

style.use('ggplot')  # 设置图片显示的主题样式

# 解决matplotlib显示中文问题
plt.rcParams['font.sans-serif'] = ['SimHei']  # 指定默认字体
plt.rcParams['axes.unicode_minus'] = False  # 解决保存图像是负号'-'显示为方块的问题

dataset_path = './dataset'
zip_file_name = 'loan.csv.zip'
csv_file_name = './loan.csv'


def analyze_lending_club_data(lc_data):

    # 选择列
    used_cols = ['loan_amnt', 'term', 'int_rate', 'grade', 'issue_d', 'addr_state', 'loan_status']
    used_data = lc_data[used_cols]
    # 查看数据集信息
    print('\n分析数据预览：')
    print(used_data.head())

    # 1. 查看不同借贷状态的数据量
    print('\n各借贷状的态数据量')
    print(used_data['loan_status'].value_counts())

    # 2. 按月份统计借贷金额总量
    # 转换数据类型
    print('时间数据类型转换...')
    used_data['issue_d2'] = pd.to_datetime(used_data['issue_d'])
    print('\n分析数据预览：')
    print(used_data.head())
    print('\n分析数据集基本信息：')
    print(used_data.info())

    data_group_by_date = used_data.groupby(['issue_d2']).sum()
    data_group_by_date.reset_index(inplace=True)
    data_group_by_date['issue_month'] = data_group_by_date['issue_d2'].apply(lambda x: x.to_period('M'))

    loan_amount_group_by_month = data_group_by_date.groupby('issue_month')['loan_amnt'].sum()
    # 结果转换为DataFrame
    loan_amount_group_by_month_df = pd.DataFrame(loan_amount_group_by_month).reset_index()

    # Porj 2.2: 可视化 借贷总量 vs 日期
    loan_amount_group_by_month_df.plot()
    plt.xlabel('日期')
    plt.ylabel('借贷总量')
    plt.title('日期 vs 借贷总量')
    plt.tight_layout()
    plt.savefig('./pics/loan_amount_vs_month.png')
    plt.show()

    print('\n按月统计借贷总额预览：')
    print(loan_amount_group_by_month_df.head())
    # 保存结果
    loan_amount_group_by_month_df.to_csv('./output/loan_amount_by_month.csv', index=False)

    # 3. 按地区（州）统计借贷金额总量
    data_group_by_state = used_data.groupby(['addr_state'])['loan_amnt'].sum()

    # Porj 2.2: 可视化 借贷总量 vs 州
    data_group_by_state.plot(kind='bar')
    plt.xlabel('州')
    plt.ylabel('借贷总量')
    plt.title('州 vs 借贷总量')
    plt.tight_layout()
    plt.savefig('./pics/loan_amount_vs_state.png')
    plt.show()

    # 结果转换为DataFrame
    data_group_by_state_df = pd.DataFrame(data_group_by_state).reset_index()
    print('\n按州统计借贷总额预览：')
    print(data_group_by_state_df.head())
    # 保存结果
    data_group_by_state_df.to_csv('./output/loan_amount_by_state.csv', index=False)

    # 4. 借贷评级、期限和利率的关系
    data_group_by_grade_term = used_data.groupby(['grade', 'term'])['int_rate'].mean()
    data_group_by_grade_term_df = pd.DataFrame(data_group_by_grade_term).reset_index()

    print('\n借贷评级、期限和利率关系预览：')
    print(data_group_by_grade_term_df.head())
    # 保存结果
    data_group_by_grade_term_df.to_csv('./output/intrate_by_grade_term.csv', index=False)

    # 转换为透视表
    data_group_by_grade_term_pivot = data_group_by_grade_term_df.pivot(index='grade', columns='term', values='int_rate')
    # 保存结果
    data_group_by_grade_term_pivot.to_csv('./output/intrate_by_grade_term2.csv')


def create_label(status_val):
    """
        根据status创建0, 1标签
        status_val: loan_status值
        返回
        =======
        label:  如果loan_status是'Fully Paid'，返回0，否则返回1
    """
    label = 1
    if status_val == 'Fully Paid':
        label = 0
    return label


def proc_emp_length(emp_length_val):

    if emp_length_val == '< 1 year' or emp_length_val == 'n/a':
        emp_length_feat = 0.5
    elif emp_length_val == '10+ years':
        emp_length_feat = 10
    else:
        emp_length_val = str(emp_length_val)
        emp_length_feat = float(emp_length_val.rstrip(' years'))
    return emp_length_feat


def run_main():
    """
        主函数
    """
    zip_file_path = os.path.join(dataset_path, zip_file_name)
    csv_file_path = os.path.join(dataset_path, csv_file_name)

    if not os.path.exists(csv_file_path):
        # 如果不存在csv文件，解压zip文件
        with zipfile.ZipFile(zip_file_path) as zf:
            zf.extractall(dataset_path)

    # 读取数据集
    raw_data = pd.read_csv(csv_file_path)
    # 审查数据集
    insepct_data(raw_data)

    # 对lending club数据进行分析
    analyze_lending_club_data(raw_data)

    # Porj 2.2: 可视化 借贷状态分布
    df_status = raw_data.loc[raw_data['loan_status'].isin(
        ['Current', 'Charged Off', 'Default', 'Fully Paid', 'In Grace Period', 'Late (16-30 days)',
         'Late (31-120 days)'])]
    plt.xticks(rotation=90)
    plt.xlabel('借贷状态')
    sns.countplot(df_status['loan_status'], palette='Set2')
    plt.tight_layout()
    plt.savefig('./pics/loan_status.png')
    plt.show()

    # 数据处理及转换，用于后续模型的输入
    # 根据借贷状态筛选数据，只保留借贷状态为'Fully Paid', 'Charged Off'和'Default'的数据
    # 'Charged Off'和'Default'的解释请参考：https://help.lendingclub.com/hc/en-us/articles/216127747
    filter_mask = raw_data['loan_status'].isin(['Fully Paid', 'Charged Off', 'Default'])
    filter_data = raw_data[filter_mask]
    print(filter_data['loan_status'].value_counts())
    # 为数据添加 0, 1 标签，'Fully Paid' -> 0, Otherwise -> 1
    proc_filter_data = filter_data.copy()
    proc_filter_data['label'] = filter_data['loan_status'].apply(create_label)

    # Porj 2.2: 可视化 正负样本比例
    proc_filter_data['label'].value_counts().plot(kind='pie', autopct='%.2f%%')
    plt.title('正负样本比例')
    plt.tight_layout()
    plt.savefig('./pics/label_pie.png')
    plt.show()


    # 保存处理结果
    proc_filter_data.to_csv('./output/proc_loan.csv', index=False)

    if os.path.exists(csv_file_path):
        # 如果存在csv文件，删除csv文件，释放空间
        os.remove(csv_file_path)


if __name__ == '__main__':
    run_main()
	t.savefig('./pics/label_pie.png')
    plt.show()


    # 保存处理结果
    proc_filter_data.to_csv('./output/proc_loan.csv', index=False)

    if os.path.exists(csv_file_path):
        # 如果存在csv文件，删除csv文件，释放空间
        os.remove(csv_file_path)