import pandas as pd
import numpy as np
import sqlite3
df=pd.read_csv(r"D:\lending-club-loan-data\loan.csv",iterator=True)
chunk=df.get_chunk(10)
chunk
id | member_id | loan_amnt | funded_amnt | funded_amnt_inv | term | int_rate | installment | grade | sub_grade | ... | hardship_payoff_balance_amount | hardship_last_payment_amount | disbursement_method | debt_settlement_flag | debt_settlement_flag_date | settlement_status | settlement_date | settlement_amount | settlement_percentage | settlement_term | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0 | NaN | NaN | 2500 | 2500 | 2500 | 36 months | 13.56 | 84.92 | C | C1 | ... | NaN | NaN | Cash | N | NaN | NaN | NaN | NaN | NaN | NaN |
1 | NaN | NaN | 30000 | 30000 | 30000 | 60 months | 18.94 | 777.23 | D | D2 | ... | NaN | NaN | Cash | N | NaN | NaN | NaN | NaN | NaN | NaN |
2 | NaN | NaN | 5000 | 5000 | 5000 | 36 months | 17.97 | 180.69 | D | D1 | ... | NaN | NaN | Cash | N | NaN | NaN | NaN | NaN | NaN | NaN |
3 | NaN | NaN | 4000 | 4000 | 4000 | 36 months | 18.94 | 146.51 | D | D2 | ... | NaN | NaN | Cash | N | NaN | NaN | NaN | NaN | NaN | NaN |
4 | NaN | NaN | 30000 | 30000 | 30000 | 60 months | 16.14 | 731.78 | C | C4 | ... | NaN | NaN | Cash | N | NaN | NaN | NaN | NaN | NaN | NaN |
5 | NaN | NaN | 5550 | 5550 | 5550 | 36 months | 15.02 | 192.45 | C | C3 | ... | NaN | NaN | Cash | N | NaN | NaN | NaN | NaN | NaN | NaN |
6 | NaN | NaN | 2000 | 2000 | 2000 | 36 months | 17.97 | 72.28 | D | D1 | ... | NaN | NaN | Cash | N | NaN | NaN | NaN | NaN | NaN | NaN |
7 | NaN | NaN | 6000 | 6000 | 6000 | 36 months | 13.56 | 203.79 | C | C1 | ... | NaN | NaN | DirectPay | N | NaN | NaN | NaN | NaN | NaN | NaN |
8 | NaN | NaN | 5000 | 5000 | 5000 | 36 months | 17.97 | 180.69 | D | D1 | ... | NaN | NaN | Cash | N | NaN | NaN | NaN | NaN | NaN | NaN |
9 | NaN | NaN | 6000 | 6000 | 6000 | 36 months | 14.47 | 206.44 | C | C2 | ... | NaN | NaN | Cash | N | NaN | NaN | NaN | NaN | NaN | NaN |
10 rows × 145 columns
colnames=pd.Series(chunk.columns)
colnames.to_excel(r"D:\lending-club-loan-data\colname.xlsx")
8. 哪个变量的缺失比例是最大的?
**‘id’、‘member_id’、‘url’ 缺失最大,缺失比例100%