python--银行反欺诈模型--数据预处理

import pandas as pd
import numpy as np
loans_2007=pd.read_csv("LoanStats3a.csv",skiprows=1)
half_count=len(loans_2007)/2#len()可以计算出样本总数
half_count
loans_2007=loans_2007.dropna(thresh=half_count,axis=1)#thresh=n,保留至少有 n 个非 NA 数的行
loans_2007.head()
#对数据进行预处理,去掉一些无关紧要的特征,或者相关程度太高的特征 得到loans_2007.csv
loans_2007=pd.read_csv("loans_2007.csv")
loans_2007.drop_duplicates()
loans_2007.iloc[0]
loans_2007["grade"].value_counts()
loans_2007.shape[1]
#像id等等这种特征对整个数据是没有用处的,选择删除掉
loans_2007=loans_2007.drop(["id"],axis=1)#drop函数默认删除行,axis=1才删除列
#然后发现loan_status可以作为label使用,意思就是借给了他钱,或者不借
#将其转化为数值型0,1  使用map函数
a={
   "Fully Paid" : 1,"Charged Off" : 0
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值