贷款分析

这篇博客主要探讨了贷款数据中各变量的缺失情况,特别是'id'、'member_id'、'url'三个字段的100%缺失。此外,还涉及贷款利率、贷款金额的分布,风险等级的直方图展示,住房属性的种类及占比,贷款状态的分类和占比,以及工作时长的分布。最后,文章深入研究了贷款状态与贷款金额、贷款周期、风险等级和工作时长之间的关系。
摘要由CSDN通过智能技术生成
import pandas as pd
import numpy as np
import sqlite3
df=pd.read_csv(r"D:\lending-club-loan-data\loan.csv",iterator=True)
chunk=df.get_chunk(10)
chunk
id member_id loan_amnt funded_amnt funded_amnt_inv term int_rate installment grade sub_grade ... hardship_payoff_balance_amount hardship_last_payment_amount disbursement_method debt_settlement_flag debt_settlement_flag_date settlement_status settlement_date settlement_amount settlement_percentage settlement_term
0 NaN NaN 2500 2500 2500 36 months 13.56 84.92 C C1 ... NaN NaN Cash N NaN NaN NaN NaN NaN NaN
1 NaN NaN 30000 30000 30000 60 months 18.94 777.23 D D2 ... NaN NaN Cash N NaN NaN NaN NaN NaN NaN
2 NaN NaN 5000 5000 5000 36 months 17.97 180.69 D D1 ... NaN NaN Cash N NaN NaN NaN NaN NaN NaN
3 NaN NaN 4000 4000 4000 36 months 18.94 146.51 D D2 ... NaN NaN Cash N NaN NaN NaN NaN NaN NaN
4 NaN NaN 30000 30000 30000 60 months 16.14 731.78 C C4 ... NaN NaN Cash N NaN NaN NaN NaN NaN NaN
5 NaN NaN 5550 5550 5550 36 months 15.02 192.45 C C3 ... NaN NaN Cash N NaN NaN NaN NaN NaN NaN
6 NaN NaN 2000 2000 2000 36 months 17.97 72.28 D D1 ... NaN NaN Cash N NaN NaN NaN NaN NaN NaN
7 NaN NaN 6000 6000 6000 36 months 13.56 203.79 C C1 ... NaN NaN DirectPay N NaN NaN NaN NaN NaN NaN
8 NaN NaN 5000 5000 5000 36 months 17.97 180.69 D D1 ... NaN NaN Cash N NaN NaN NaN NaN NaN NaN
9 NaN NaN 6000 6000 6000 36 months 14.47 206.44 C C2 ... NaN NaN Cash N NaN NaN NaN NaN NaN NaN

10 rows × 145 columns

colnames=pd.Series(chunk.columns)
colnames.to_excel(r"D:\lending-club-loan-data\colname.xlsx")

8. 哪个变量的缺失比例是最大的?

**‘id’、‘member_id’、‘url’ 缺失最大,缺失比例100%


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值