和鲸社区数据分析每周挑战【第九十八期：企业贷款审批分析】

最新推荐文章于 2024-11-07 17:17:22 发布

-北天-

最新推荐文章于 2024-11-07 17:17:22 发布

阅读量936

点赞数 1

分类专栏：和鲸社区数据分析每周挑战文章标签：数据分析大数据数据挖掘

本文链接：https://blog.csdn.net/qq_52417436/article/details/131764136

版权

和鲸社区数据分析每周挑战专栏收录该内容

13 篇文章 10 订阅

订阅专栏

和鲸社区数据分析每周挑战【第九十八期：企业贷款审批分析】

文章目录

和鲸社区数据分析每周挑战【第九十八期：企业贷款审批分析】

在这里插入图片描述

一、背景描述

本数据集为美国PPP计划的贷款数据集，包含了贷款金额为15万美元及以上的贷款记录信息。

工资保障计划（PPP）
美国的Paycheck Protection Program法案是一项旨在帮助美国中小企业度过新冠疫情的经济援助计划。该法案额度为美国GDP的10%(约2-2.2万亿美元),3490亿美元面向500人以下中小企业，即PPP项目。
PPP全称为“Paycheck Protection Program”，即薪资保护项目。它通过美国中小企业署SBA(Small Business Agency)贷款的形式来发放补助，而非以现金或拨款形式发放。该法案旨在帮助企业留住员工，不至于他们被裁员，PPP的借款利率非常低，还款条件优惠。如果公司保持员工数量以及工资水平，符合条件的企业可以免除部分或全部的利息和本金。

二、数据说明

字段	翻译	说明
LoanRange	贷款金额	获批准的贷款金额范围
BusinessName	公司名称
Address	地址
City	城市
State	州
Zip	邮政编码
NAICSCode	NAICS编号	NAICS: 北美行业分类系统
BusinessType	企业类型
RaceEthnicity	种族
Gender	性别
Veteran	退伍军人	申请者是否为退伍军人
NonProfit	非营利组织	是否是非营利组织
JobsRetained	保留岗位	有多少工作岗位获得了贷款批准
DateApproved	批准日期	贷款批准的日期
Lender	银行	贷款银行
CD	CD	企业对应国会选区

三、问题描述

中小企业贷款需求EDA
贷款获批企业数据分析

四、数据加载

import pandas as pd

data_path = "PPP_data_150k_plus.csv"
df = pd.read_csv(data_path)

df.head()

在这里插入图片描述

数据集包括以下字段：

LoanRange：获批准的贷款金额范围
BusinessName：公司名称
Address：地址
City：城市
State：州
Zip：邮政编码
NAICSCode：NAICS编号（北美行业分类系统）
BusinessType：企业类型
RaceEthnicity：种族
Gender：性别
Veteran：申请者是否为退伍军人
NonProfit：是否是非营利组织
JobsRetained：有多少工作岗位获得了贷款批准
DateApproved：贷款批准的日期
Lender：贷款银行
CD：企业对应国会选区

接下来，我们将进一步探索这些数据。

五、数据清洗和预处理

在进行数据分析之前，我们需要先进行数据清洗和预处理，包括处理缺失值、错误值、异常值等，让我们先查看数据的概况。

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 661218 entries, 0 to 661217
Data columns (total 16 columns):
 #   Column         Non-Null Count   Dtype  
---  ------         --------------   -----  
 0   LoanRange      661218 non-null  object 
 1   BusinessName   661210 non-null  object 
 2   Address        661201 non-null  object 
 3   City           661203 non-null  object 
 4   State          661218 non-null  object 
 5   Zip            661202 non-null  float64
 6   NAICSCode      654435 non-null  float64
 7   BusinessType   659789 non-null  object 
 8   RaceEthnicity  661218 non-null  object 
 9   Gender         661218 non-null  object 
 10  Veteran        661218 non-null  object 
 11  NonProfit      42462 non-null   object 
 12  JobsRetained   620712 non-null  float64
 13  DateApproved   661218 non-null  object 
 14  Lender         661218 non-null  object 
 15  CD             661218 non-null  object 
dtypes: float64(3), object(13)
memory usage: 80.7+ MB

数据集中有661218条记录，16个字段。其中，有一些字段存在缺失值，比如 BusinessName、Address、City、Zip、NAICSCode、BusinessType 和 JobsRetained。特别是 NonProfit 字段，只有42462个非空值，这可能是因为只有非营利组织才在这个字段中填写了信息。

接下来我们需要决定如何处理这些缺失值。一种可能的策略是对于数值型字段（如 JobsRetained），我们可以使用平均值或中位数进行填充。对于类别型字段（如 BusinessType），我们可以选择使用最常见的类别进行填充。然而，对于 NonProfit 字段，由于缺失值过多，我们可能需要更深入地研究如何处理。

此外我们还需要注意到 DateApproved 字段目前是对象类型，为了后续的时间序列分析，我们需要将其转换为日期类型。

下面让我们先处理 DateApproved 字段，将其转换为日期类型，然后再处理其他的缺失值。

# 将 DateApproved 转换为日期类型
df['DateApproved'] = pd.to_datetime(df['DateApproved'])

# 使用中位数填充 JobsRetained 字段的缺失值
df['JobsRetained'] = df['JobsRetained'].fillna(df['JobsRetained'].median())

# 使用最常见的值填充 BusinessType 字段的缺失值
df['BusinessType'] = df['BusinessType'].fillna(df['BusinessType'].mode()[0])

# 将 NonProfit 字段的缺失值视为非非营利组织，填充为 'N'
df['NonProfit'] = df['NonProfit'].fillna('N')

# 检查处理后的数据
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 661218 entries, 0 to 661217
Data columns (total 16 columns):
 #   Column         Non-Null Count   Dtype         
---  ------         --------------   -----         
 0   LoanRange      661218 non-null  object        
 1   BusinessName   661210 non-null  object        
 2   Address        661201 non-null  object        
 3   City           661203 non-null  object        
 4   State          661218 non-null  object        
 5   Zip            661202 non-null  float64       
 6   NAICSCode      654435 non-null  float64       
 7   BusinessType   661218 non-null  object        
 8   RaceEthnicity  661218 non-null  object        
 9   Gender         661218 non-null  object        
 10  Veteran        661218 non-null  object        
 11  NonProfit      661218 non-null  object        
 12  JobsRetained   661218 non-null  float64       
 13  DateApproved   661218 non-null  datetime64[ns]
 14  Lender         661218 non-null  object        
 15  CD             661218 non-null  object        
dtypes: datetime64[ns](1), float64(3), object(12)
memory usage: 80.7+ MB

现在大部分字段的缺失值已经被填充。然而对于 BusinessName、Address、City、Zip 和 NAICSCode，这些字段缺失的数据相对较少，我们可以选择删除这些含有缺失值的记录，因为它们对整个数据集的影响较小。

我们将删除这些含有缺失值的记录，然后再次查看数据的概况。

# 删除含有缺失值的记录
df = df.dropna()

# 检查处理后的数据
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 654411 entries, 0 to 661209
Data columns (total 16 columns):
 #   Column         Non-Null Count   Dtype         
---  ------         --------------   -----         
 0   LoanRange      654411 non-null  object        
 1   BusinessName   654411 non-null  object        
 2   Address        654411 non-null  object        
 3   City           654411 non-null  object        
 4   State          654411 non-null  object        
 5   Zip            654411 non-null  float64       
 6   NAICSCode      654411 non-null  float64       
 7   BusinessType   654411 non-null  object        
 8   RaceEthnicity  654411 non-null  object        
 9   Gender         654411 non-null  object        
 10  Veteran        654411 non-null  object        
 11  NonProfit      654411 non-null  object        
 12  JobsRetained   654411 non-null  float64       
 13  DateApproved   654411 non-null  datetime64[ns]
 14  Lender         654411 non-null  object        
 15  CD             654411 non-null  object        
dtypes: datetime64[ns](1), float64(3), object(12)
memory usage: 84.9+ MB

现在数据集中的所有字段都不再包含缺失值。

六、数据探索与分析

1、贷款金额分布

首先让我们看一下贷款金额的分布情况。由于 LoanRange 字段给出的是贷款金额的范围，我们无法得到精确的贷款金额，但我们可以通过计数每个范围的数量来获取一些大致的信息。

import cufflinks as cf

# 设置cufflinks为离线模式
cf.go_offline()

# 设置主题
cf.set_config_file(theme='pearl')

# 贷款金额范围的计数
loan_range_counts = df['LoanRange'].value_counts()
loan_range_counts = loan_range_counts.sort_values(ascending=False)
loan_range_counts.iplot(kind='bar', title='贷款金额范围分布', color='blue', xTitle='贷款金额范围', yTitle='数量')

在这里插入图片描述

从上图可以看出，不同范围的贷款数量有显著的差异。具体来说，150,000-350,000美元的贷款数量最多，其次是350,000-1,000,000美元的贷款。这可能反映了大多数公司的贷款需求较小，只有少数公司需要较大的贷款。

2、各州的贷款数量分布

我们再来看一下各州的贷款数量分布，这可以帮助我们了解哪些州的公司更多地利用了PPP贷款。

# 各州的贷款数量
state_counts = df['State'].value_counts()
state_counts = state_counts.sort_values(ascending=False)
state_counts.iplot(kind='bar', title='各州的贷款数量分布', color='blue', xTitle='州', yTitle='数量')

在这里插入图片描述

从上图可以看出，各州的贷款数量差异较大。具体来说，加利福尼亚州、德克萨斯州、纽约州的贷款数量最多。这可能与这些州的经济规模和企业数量有关。

3、贷款批准日期分布

我们再来看一下贷款批准日期的分布，这可以帮助我们了解贷款批准的时间趋势。我们将按月统计贷款批准的数量。

# 贷款批准日期分布
df['DateApproved'] = pd.to_datetime(df['DateApproved'])
df['YearMonth'] = df['DateApproved'].dt.to_period('M')
date_counts = df['YearMonth'].value_counts().sort_index()
date_counts.iplot(kind='line', title='贷款批准日期分布', color='blue', xTitle='年月', yTitle='数量')

在这里插入图片描述

从上图可以看出，贷款批准的日期主要集中在2020年的4月和5月，这可能是因为PPP计划在2020年春季开始实施，许多公司在这个时期提交了贷款申请。

4、非营利组织和营利组织的贷款数量比较

我们再来看一下非营利组织和营利组织的贷款数量比较。这可以帮助我们了解这两类组织在利用PPP贷款方面的差异。

# 非营利组织和营利组织的贷款数量比较
nonprofit_counts = df['NonProfit'].value_counts()
nonprofit_counts = nonprofit_counts.sort_values(ascending=False)
nonprofit_counts.iplot(kind='bar', title='非营利组织和营利组织的贷款数量比较', color='blue', xTitle='是否为非营利组织', yTitle='数量')

在这里插入图片描述

从上图可以看出，获得PPP贷款的大部分是营利组织，非营利组织的数量较少，这可能反映了PPP计划的主要目标是帮助营利组织，尤其是中小企业。

5、各种银行的贷款数量分布

最后让我们看一下各种银行的贷款数量分布。这可以帮助我们了解哪些银行在PPP计划中扮演了主要角色。由于银行数量可能较多，我们只查看贷款数量最多的前10个银行。

# 贷款数量最多的前10个银行
lender_counts = df['Lender'].value_counts()
lender_counts = lender_counts.sort_values(ascending=False)
lender_counts[:10].iplot(kind='bar', title='贷款数量最多的前10个银行', color='blue', xTitle='银行', yTitle='数量')