python--银行反欺诈模型--数据预处理

最新推荐文章于 2022-12-04 12:20:27 发布

rong_king_

最新推荐文章于 2022-12-04 12:20:27 发布

阅读量617

点赞数

本文链接：https://blog.csdn.net/rong_king_/article/details/105368091

版权

import pandas as pd
import numpy as np
loans_2007=pd.read_csv("LoanStats3a.csv",skiprows=1)
half_count=len(loans_2007)/2#len()可以计算出样本总数
half_count
loans_2007=loans_2007.dropna(thresh=half_count,axis=1)#thresh=n，保留至少有 n 个非 NA 数的行
loans_2007.head()
#对数据进行预处理，去掉一些无关紧要的特征，或者相关程度太高的特征 得到loans_2007.csv
loans_2007=pd.read_csv("loans_2007.csv")
loans_2007.drop_duplicates()
loans_2007.iloc[0]
loans_2007["grade"].value_counts()
loans_2007.shape[1]
#像id等等这种特征对整个数据是没有用处的，选择删除掉
loans_2007=loans_2007.drop(["id"],axis=1)#drop函数默认删除行，axis=1才删除列
#然后发现loan_status可以作为label使用，意思就是借给了他钱，或者不借
#将其转化为数值型0，1  使用map函数
a={
   "Fully Paid" : 1,"Charged Off" : 0