python贷款_用PYTHON分析贷款平台数据

本项目使用贷款公司Lending Club从2007年-2015年的贷款数据80多万条,分析以下三个问题:

1. 该贷款公司运营情况

2. 贷款人特征分析-用户画像

3. 相关性分析(贷款利率与什么相关)

一、导入数据、了解数据

import pandas as pd

import numpy as np

np.set_printoptions(suppress=True)

import seaborn as sns

import matplotlib.pyplot as plt

from matplotlib import rcParams

loan_raw=pd.read_csv(‘loan.csv’)

数据一共887379行,74列

下面抽取与问题相关的变量

数据共有887379行,其中annual_inc(年收入)、delinq_2yrs (过去两年逾期30天以上次数)、inq_last_6mths(过去6个月征信次数)、emp_length (工作年限) 数据不完整。issue_d (放贷时间)需要转换为时间、emp_length 需要转换为数值类型。

二、清洗数据

1.查看id是否有重复值,如果有,删掉

loan.drop_duplicates(‘id’)

没有重复值

2.补全annual_inc:数值型数据一般用平均值补全

annual_avg=loan[‘annual_inc’].mean()

loan[‘annual_inc’]=loan[‘annual_inc’].fillna(annual_avg)

3.补全delinq_2yrs,用众数补全

loan[‘delinq_2yrs’]=loan[‘delinq_2yrs’].fillna(0)

4.inq_last_6mths用众数补全

loan[‘inq_last_6mths’]=loan[‘inq_last_6mths’].fillna(0)

5.工作年限用众数补全

loan[’emp_length’]=loan[’emp_length’].fillna(’10+ years’)

6.工作年限转换成数值

7.把issue_d转换为时间格式

from datetime import datetime

loan[‘issue_d’]=pd.to_datetime(loan[‘issue_d’])

8.从时间中抽出年份,增加年份变量

loan[‘year’]=loan[‘issue_d’].dt.year

9.删掉id、issue_d列

loan.drop(‘id’,axis=1,inplace=True)

loan.drop(‘issue_d’,axis=1,inplace=True)

10.修改列名

loan = loan.rename(columns={“loan_amnt”: “loan_amount”, “addr_state”: “state”, “emp_length”: “employment”, “int_rate”: “interest_rate”, “annual_inc”: “annual_income”})

三、描述贷款平台

1.贷款随时间变化

该贷款平台的贷款总额逐年增长,在2011年之后开始快速增长。每笔贷款平均值从2007年的8000多涨到2015年的15000。说明该平台发展不错。

2.贷款额、贷款利率总览

1万美元贷款数量最多。贷款额最高是3.5万美元。

贷款利率集中在11%-14%。

利率每年波动比较大,2013年利率最高,之后两年连续下降。

3.不同期限贷款情况

(1) 平台提供的贷款期限

贷款期限有两种,一种是36个月,一种是60个月。其中36个月的贷款占比70%。也就是说,该贷款平台大部分贷款是3年短期贷款。

(2)不同贷款期限的利率

36个月贷款的平均利率约12%,60个月贷款的平均利率约16%。36个月的贷款利率低,或许可以解释为什么选择36个月的贷款客户数多。

(3)不同期限贷款随时间变化情况

#对term(贷款期限)进行one-hot编码

termDf = pd.get_dummies( loan[‘term’] , prefix=’term’ )

loan = pd.concat([loan,termDf],axis=1)

term_2=loan.groupby(‘year’).agg({‘term_ 36 months’:’sum’,’term_ 60 months’:’sum’})

term_2.plot(figsize=(20,10),title=’Two terms over years’)

从2007年到2015年,36个月的贷款数量一直比60个月的贷款数量多,增速也高于60个月的贷款。

4.各州贷款情况

贷款笔数最多的州前三名是CA、NY、TX;贷款总额最多的州前三名是CA、TX、NY。

5.坏贷率

坏贷款占总贷款数的7.6%。

总结:2007年至2015年,该贷款平台的贷款总额逐年增长,在2011年之后增速加快。每笔贷款平均值从2007年的8000多涨到2015年的15000。说明该平台发展不错。平台上,1万美元贷款数量最多。贷款额最高是3.5万美元。贷款利率集中在11%-14%。利率每年波动比较大,2013年利率最高,之后两年连续下降。贷款期限有两种,一种是36个月,一种是60个月。其中36个月的贷款占比70%。也就是说,该贷款平台大部分贷款是3年短期贷款。36个月贷款的平均利率约12%,60个月贷款的平均利率约16%。36个月的贷款利率低,或许可以解释为什么选择36个月的贷款客户数多。从2007年到2015年,36个月的贷款数量一直比60个月的贷款数量多,增速也高于60个月的贷款。贷款笔数最多的州前三名是CA、NY、TX;贷款总额最多的州前三名是CA、TX、NY。坏贷款占总贷款数的7.6%。

四、贷款客户情况

1.收入

目测大部分收入数值集中在30万以下,看看30万以下的收入分布

大部分借款人年收入在4-6万

2.工作年限

贷款人中,工作10年以上的最多,接下来是工作2年和不到1年的。

3.房产状况

按揭和租房的占大多数,有房产的人排名第三。

4.贷款目的

贷款目的排名第一的是贷款整合,即从一家银行贷款还其他各种贷款。

5.贷款人评级

贷款人评级大部分是A-D,最差的G只占0.62%。

6.贷款客户6个月内征信情况

过去6个月征信次数,大部分是3次以内。

7.贷款人2年内逾期情况

过去2年逾期还款,大部分是0.

总结:大部分贷款人年收入在4-6万,工作10年以上,租房或者有按揭,贷款目的是贷款整合,信用评级在A-D,过去6个月征信次数3次以内,过去2年逾期次数0.贷款人质量比较高。

五.利率相关性分析

评级越差,利率越高,差别很明显。评级为A的利率大约8%,评级为G的利率大约26%,是A级的3倍。

不同目的的贷款利率有差别。利率中位数高于15%的贷款目的是:small_business,house,moving,renewable_energy。利率中位数最低的两项是car和credit_card.

总结:利率与贷款人评级相关,评级越差,利率越高。利率与贷款目的也有相关性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值