Udacity数据分析(进阶)-Prosper 贷款数据分析

Prosper 贷款数据分析

Prosper是美国的一家P2P(个人对个人)在线借贷平台网站,世界排名2万左右。网站撮合了一些有闲钱的人和一些急于用钱的人。用户若有贷款需求,可在网站上列出期望数额和可承受的最大利率。潜在贷方则为数额和利率展开竞价。这种交易对借贷双方是一种双赢。卖家可以获得比银行更高的利息收入,而对于买家来说,除了过程快捷便利和可以获得较低的还款利率外,更主要的是你不需要经过漫长的审查过程,不会遇到在银行申请贷款遭拒时的尴尬。本案例试图从EDA分析角度出发,分析Propser数据集中贷款人条件及贷款利率等问题。

library("ggplot2")
library("knitr")
library("dplyr")
library("gridExtra")
library("memisc")
# Load the Data
setwd('G:/备份/数据分析/进阶/R')

prosper <- read.csv("prosperLoanData.csv")

单变量绘图

dim(prosper)

[1] 113937 81

str(prosper)

我们的数据集由81个变量组成,具有约110000个观测值

主要数据字典

BorrowerRate:借款人的贷款利率,影响着借贷双方经济利益,为本次分析的重要指标
Occupation:借款人的职业
Term:贷款期限(月)
EmploymentStatus:借款人就业状态
BorrowerState:借款人所在地址,采用2个字母缩写
ListingCategory:贷款类型,共21种状态
IncomeRange:借款人的收入范围
CreditGrade/ProsperRating..Alpha.:借款人评级,区别是前者为09年7月之前,后者为09年7月之后
CreditScore: 借款人评分,由信用评分计算均值获得
LenderYield:贷款人收益
InvestmentFromFriendsCount:对贷款进行投资的合伙人数量。
InvestmentFromFriendsAmount:合伙人的投资金额。

贷款利率

ggplot(aes(BorrowerRate),data = prosper) + 
  geom_histogram() +
  theme(plot.title = element_text(hjust=0.5))+
  ggtitle('Count of Borrower Rate')

在这里插入图片描述
贷款利率主要分布在0%-0.4%之间,修正一下X轴。

ggplot(aes(BorrowerRate),data = prosper) + 
  geom_histogram(binwidth = 0.01) +
  scale_x_continuous(breaks=seq(0,0.4,0.1))+
  theme(plot.title = element_text(hjust=0.5))+
  ggtitle('Count of Borrower Rate')

在这里插入图片描述
整体贷款利率集中在0.15%-0.2%之间,数据接近正态分布。

借款人职业

ggplot(aes(Occupation),data = prosper) + 
  geom_bar() +
  theme(axis.text.x=element_text(angle = 90,hjust = 1,vjust=0,size=7),
        plot.title = element_text(hjust=0.5))+
  ggtitle('Count of Occupation')

在这里插入图片描述
从职业来看,大多数人都选择了other,紧接着就是Professional,但是具体是哪方面,并没有给出详细的信息。

贷款期限

#将Term数据类型改为factor
prosper$Term<-as.factor(prosper$Term)
summary(prosper$Term)
   12    36    60 
 1614 87778 24545
ggplot(aes(Term),data = prosper) + 
  geom_bar() +
  theme(plot.title = element_text(hjust=0.5))+
  ggtitle('Count of Term')

在这里插入图片描述
prosper的贷款期限一般为1年、3年和5年,将近9W的人选择以3年为期限。

借款人就业情况

ggplot(aes(EmploymentStatus),data = prosper) + 
  geom_bar() +
  theme(axis.text.x=element_text(angle = 90,hjust = 1,vjust=0,size=7),
        plot.title = element_text(hjust=0.5))+
  ggtitle('Count of EmploymentStatus') 

在这里插入图片描述
从有效的数据看,90%以上申请贷款的都属于在职员工,具有稳定的收入,可以偿还贷款。

借款人所在地区

ggplot(aes(BorrowerState),data = prosper) + 
  geom_bar() +
  theme(axis.text.x=element_text(angle = 90,hjust = 1,vjust=0,size=7),
        plot.title = element_text(hjust=0.5))+
  ggtitle('Count of Borrower State')

CA(加利福尼亚州)拥有最多的借款人,高出第二多的城市将近2倍,为什么在这里会有这么多的借款人?查阅资料发现加州受累于金融危机,经济崩溃,房地产市场崩溃,各种各样的繁荣和泡沫崩溃,可能是导致贷款人数居高不下的原因。
http://m.jrj.com.cn/toutiao/2015/12/29/20319918.shtml

贷款类型/用途

ggplot(aes(ListingCategory..numeric.),data = prosper) + 
  geom_bar() +
  scale_x_continuous(breaks=seq(0,21,1))+
  theme(plot.title = element_text(hjust=0.5))+
  ggtitle('Count of Category')

在这里插入图片描述
除去0(暂无分类),最多的是1(债务合并),所谓债务合并就是向银行贷一笔款用于还清其他的所有债务,债务合并后,借款人会得到一个新的利率。

借款人收入范围

summary(prosper$IncomeRange)
 $0      $1-24,999      $100,000+ $25,000-49,999 $50,000-74,999 $75,000-99,999  Not displayed   Not employed 
           621           7274          17337          32192          31050          16916           7741            806 
#将IncomeRange数据类型改为factor并且排序
prosper$IncomeRange <- factor(prosper$IncomeRange, levels=c("$0",
                                                            "$1-24,999",
                                                            "$25,000-49,999",
                                                            "$50,000-74,999",
                                                            "$75,000-99,999",
                                                            "$100,000+",
                                                            "Not displayed",
                                                "Not employed"), ordered=TRUE)

ggplot(aes(IncomeRange),data = prosper) + 
  geom_bar() +
  theme(axis.text.x=element_text(angle = 90,hjust = 1,vjust=0,size=7),
        plot.title = element_text(hjust=0.5))+
  ggtitle('Count of Income Range')

在这里插入图片描述
大部分借款人的收入在“$25,000-$75,000”之间,其次就是“$75,000”以上的人群。

借款人信用等级/评分


#将贷款时间变更为Date格式,变更贷款评级数据类型为factor并排序
prosper$LoanOriginationDate <- as.Date(prosper$LoanOriginationDate)

prosper$CreditGrade <- factor(
  prosper$CreditGrade, levels=c("HR","E","D","C","B","A","AA"), ordered=TRUE)
prosper$ProsperRating..Alpha. <- factor(
  prosper$ProsperRating..Alpha., 
  levels=c("HR","E","D","C","B","A","AA"), ordered=TRUE)

p1<-ggplot(aes(x=CreditGrade),
           data=subset(prosper,LoanOriginationDate < "2009-07-01"))+
  geom_bar()+
  theme(plot.title = element_text(hjust=0.5))+
  ggtitle('Grade before 2009-07')

p2<-ggplot(aes(x=ProsperRating..Alpha.),
           data=subset(prosper,LoanO
  • 3
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值