逻辑回归项目数据清洗:金融风控

1.去掉一些明显没有用的特征,如 如’desc’,'url’,并将剩下特征保存到一个新的csv文件中

import warnings 
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 


warnings.filterwarnings("ignore") #消除警告

loans_2007 = pd.read_csv("C:/Users/lb/Desktop/test/LoanStats3a.csv",skiprows=1 )#第一行是字符串,跳过第一行
loans_2007.head(5)

half_count = len(loans_2007)/2 
#保留至少有一半非NAN数据的列
loans_2007 = loans_2007.dropna( thresh = half_count,axis =1)
#删除描述和URL 两列
loans_2007 = loans_2007.drop(['desc','url'],axis = 1)


#追加到loans_2007文件 index = Falsese 表示不加索引
loans_2007.to_csv('loans_2007.scv',index = False)

2.Step.2 输出数据标签,初判断无用特征

loans_2007 = pd.read_csv("./loans_2007.scv")
loans_2007.drop_duplicates() #判断是否有重复行
print(loans_2007.iloc[0]) #第一行数据
print("--------------------------------------------")
print(loans_2007.shape[1]) #看下一共有多少列

在这里插入图片描述

在这里插入图片描述

#删除:客户ID和被模型预测后的值
#客户唯一的ID、编号ID、loan_amnt:期望贷款的值、funded_amnt_inv:实际上发放了多少钱、grade和sub_grade给客户打分
#emp_title:客户所在公司名称
#issue_d:逾期时间
loans_2007 = loans_2007.drop(["id", "member_id", "funded_amnt", "funded_amnt_inv", "grade", "sub_grade", "emp_title", "issue_d"], axis=1)


#去掉不需要的特征
"""
#删除:被模型预测后的值
#zip_code:邮编 美国常用
#out_prncp和out_prncp_inv都是一样的:总资金中剩余的未偿还本金
#out_prncp_inv:实际未偿还的本金
#total_rec_prncp:迄今收到的本金
"""
loans_2007 = loans_2007.drop(["zip_code", "out_prncp&
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值