逻辑回归项目数据清洗：金融风控

最新推荐文章于 2021-07-28 22:12:19 发布

每天都要被自己菜醒

最新推荐文章于 2021-07-28 22:12:19 发布

阅读量459

点赞数

分类专栏：大数据文章标签：数据分析大数据 python

本文链接：https://blog.csdn.net/qq_45531594/article/details/108424070

版权

1.去掉一些明显没有用的特征，如如’desc’,'url’，并将剩下特征保存到一个新的csv文件中

import warnings 
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 


warnings.filterwarnings("ignore") #消除警告

loans_2007 = pd.read_csv("C:/Users/lb/Desktop/test/LoanStats3a.csv",skiprows=1 )#第一行是字符串，跳过第一行
loans_2007.head(5)

half_count = len(loans_2007)/2 
#保留至少有一半非NAN数据的列
loans_2007 = loans_2007.dropna( thresh = half_count,axis =1)
#删除描述和URL 两列
loans_2007 = loans_2007.drop(['desc','url'],axis = 1)


#追加到loans_2007文件 index = Falsese 表示不加索引
loans_2007.to_csv('loans_2007.scv',index = False)

2.Step.2 输出数据标签，初判断无用特征

loans_2007 = pd.read_csv("./loans_2007.scv")
loans_2007.drop_duplicates() #判断是否有重复行
print(loans_2007.iloc[0]) #第一行数据
print("--------------------------------------------")
print(loans_2007.shape[1]) #看下一共有多少列

在这里插入图片描述

#删除：客户ID和被模型预测后的值
#客户唯一的ID、编号ID、loan_amnt：期望贷款的值、funded_amnt_inv：实际上发放了多少钱、grade和sub_grade给客户打分
#emp_title：客户所在公司名称
#issue_d：逾期时间
loans_2007 = loans_2007.drop(["id", "member_id", "funded_amnt", "funded_amnt_inv", "grade", "sub_grade", "emp_title", "issue_d"], axis=1)


#去掉不需要的特征
"""
#删除：被模型预测后的值
#zip_code：邮编 美国常用
#out_prncp和out_prncp_inv都是一样的：总资金中剩余的未偿还本金
#out_prncp_inv：实际未偿还的本金
#total_rec_prncp：迄今收到的本金
"""
loans_2007 = loans_2007.drop(["zip_code", "out_prncp&

最低0.47元/天解锁文章

每天都要被自己菜醒

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归项目数据清洗：金融风控

1.去掉一些明显没有用的特征，如如’desc’,'url’，并将剩下特征保存到一个新的csv文件中import warnings import pandas as pd import numpy as np import matplotlib.pyplot as plt warnings.filterwarnings("ignore") #消除警告loans_2007 = pd.read_csv("C:/Users/lb/Desktop/test/LoanStats3a.csv",ski
复制链接

扫一扫