kaggle（二）：最大利润问题

最新推荐文章于 2024-06-23 15:42:10 发布

gaoyishu91

最新推荐文章于 2024-06-23 15:42:10 发布

阅读量653

点赞数

分类专栏： Machine_Learning

本文链接：https://blog.csdn.net/gaoyishu91/article/details/80201803

版权

本文探讨了一道kaggle上的监督学习问题，目标是预测贷款者是否会还款以实现最大利润。通过模型预测与真实标签对比评估模型性能。涉及更多数据清洗和模型评估指标，如查准率、查全率、精确率和召回率。

摘要由CSDN通过智能技术生成

这是一个监督学习求解最大利润的题目。给很多人去放款贷款，目的是预测这些贷款的人会不会还款；如果还，标签为1，说明银行预测正确，可以得到利润；如果不还，标签为0，银行不可以得到利润。模型预测之后，和真实的标签去对比，评估模型的好坏。

这道题牵扯到了比kaggle（一）更多的属性特征和样本数，（二）更多的数据清洗操作；（三）模型评估指标的应用。

# coding: utf-8
import pandas as pd

load_2007 = pd.read_csv("LoanStats3a.csv",skiprows=1)   #读取文件
len(load_2007)   #查看有多少row，行数

load_2007.shape   #查看数组的二维特征，(rows,columns)
print(load_2007.shape[0])   #(rows)
print(load_2007.shape[1])   #(columns)

#删除缺失值 根据缺失值占总样本数多少的删除掉 缺失率
#当删除行时，axis = 0, 如果这一个样本有一半的特征都没有数据。
#当删除特征时，axis = 1，如果这一个特征有一半的样本都没有数据。

#设定阈值
half_count_column = int(load_2007.shape[0]/2)   #计算一半的样本个数
half_count_row = int(load_2007.shape[1]/2)   #计算一半的属性个数
print(half_count_column)

load_2007 = load_2007.dropna(thresh=half_count,axis = 1)  #保留column的数据，如果column至少有一半不等于na，axis=1按照column取
load_2007.shape

load_2007 = load_2007.drop(['desc','url'],axis = 1) #axie = 1 column, axis = 0,index
load_2007.to_csv('load_2007.csv',index = False)

print(load_2007.iloc[1,:])   #索引的用法 loc和iloc loc[row_name:row_name,column_name:column_name]根据名称切  iloc[1:2,1:2]根据index切

load_2007.columns.values   #查看columns的名称，输出是一个list形式，名称为str的格式

#把一些和loans无关的去掉 drop("column_name",axis=1)

load_2007 = load_2007.drop(["id", "member_id", "funded_amnt", "funded_amnt_inv", "grade", "sub_grade", "emp_title", "issue_d"], axis=1)

load_2007 = load_2007.drop(["zip_code", "out_prncp", "out_prncp_inv", "total_pymnt", "total_pymnt_inv", "total_rec_prncp"], axis=1)

load_2007 = load_2007.drop(["total_rec_int", "total_rec_late_fee", "recoveries", "collection_recovery_fee", "last_pymnt_d", "last_pymnt_amnt"], axis=1)

load_2007.shape[1]

#pandas 计1  计算公式1
print(load_2007['loan_status'].value_counts())  #统计这个columns每个分属性的个数

#pandas 查1  #|号是或  查找公式1
load_2007 = load_2007[(load_2007['loan_status'] == "Fully Paid") | (load_2007['loan_status'] == "Charged Off")]
load_2007.shape  #bool条件判断，提取某

最低0.47元/天解锁文章

gaoyishu91

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
kaggle（二）：最大利润问题

这是一个监督学习求解最大利润的题目。给很多人去放款贷款，目的是预测这些贷款的人会不会还款；如果还，标签为1，说明银行预测正确，可以得到利润；如果不还，标签为0，银行不可以得到利润。模型预测之后，和真实的标签去对比，评估模型的好坏。这道题牵扯到了比kaggle（一）更多的属性特征和样本数，（二）更多的数据清洗操作；（三）模型评估指标的应用。# coding: utf-8import pandas ...
复制链接

扫一扫

专栏目录