ML - 贷款用户逾期情况分析1 - Baseline

最新推荐文章于 2024-01-10 10:14:53 发布

落木~

最新推荐文章于 2024-01-10 10:14:53 发布

阅读量2.8k

点赞数 7

分类专栏： Machine Learning 文章标签： ML 贷款用户逾期情况分析缺失值处理 LR

本文链接：https://blog.csdn.net/a786150017/article/details/84138846

版权

这篇博客主要介绍了利用ML技术预测贷款用户是否逾期的分析过程。首先，通过数据预处理，包括删除无用特征、字符型特征编码和缺失值处理。接着，构建了LR、SVM、决策树、XGBoost和LightGBM模型，并对模型进行了评估，关注accuracy、precision、recall、f1-score、AUC和ROC曲线。在实施过程中遇到了编码、导入库等问题，通过查阅资料和调整解决了问题。

摘要由CSDN通过智能技术生成

任务

给定金融数据，预测贷款用户是否会逾期。（status是标签：0表示未逾期，1表示逾期。）

Task1 - 构建逻辑回归模型进行预测（在构建部分数据需要进行缺失值处理和数据类型转换，如果不能处理，可以直接暴力删除）
Task2 - 构建SVM和决策树模型进行预测
Task3 - 构建xgboost和lightgbm模型进行预测
Task4 - 模型评估：记录五个模型关于accuracy、precision，recall和f1-score、auc、roc的评分表格，画出auc和roc曲线图

总述

基本思路

主要分为以下几个步骤：
1）数据集预览
2）数据预处理：删除无用特征、字符型特征编码和缺失值填充。
3）特征工程：略
4）模型选择：LR、SVM(线性、多项式、高斯、sigmoid)、决策树、XGB和lightGBM。
5）模型调参：略
6）模型评估：准确率、精准率和召回率、F1-score、AUC和ROC曲线。
7）最终结果

代码部分

1. 数据集预览

import pandas as pd
data = pd.read_csv('data.csv')
print(data.shape)
data.head()

观察输出可知，数据集尺寸是(4754, 90)。
下面观察一下各列的属性名称：

data.columns

输出：‘low_volume_percent’,‘middle_volume_percent’,‘take_amount_in_later_12_month_highest’ …

2. 数据预处理

2.1 删除无用特征

# 'bank_card_no','source'的取值无区分度
# 'Unnamed: 0', 'custid', 'trade_no'和id_name'与预测无关
data.drop(['Unnamed: 0', 'custid', 'trade_no', 'bank_card_no', 'source', 'id_name'], 
          axis=1, inplace=True)

日期特征（暂时删除, 以后再处理）

data.drop(['first_transaction_time', 'latest_query_time', 'loans_latest_time'], 
          axis=1, inplace=True)

2.2 字符型特征-编码

data['reg_preference_for_trad'].value_counts()

输出：
一线城市 3403
三线城市 1064
境外 150
二线城市 131
其他城市 4

对该特征编码如下：

dic = {
   }
for i, val in enumerate(list(data['reg_preference_for_trad'].unique())):
    dic[val] = i
data['reg_preference_for_trad'] = data['reg_preference_for_trad'].map(dic)

2.3 缺失特征处理

观察各列缺失值所占比例，从输出可以看出特征student_feature 缺失值占比超过一半，其余特征缺失值占比较低。

for feature in data.columns:
    summ = data[feature].isnull().sum()
    if summ:
        print('%.4f'%(summ*100/4754), '%',  '--', feature)

1）student_feature 缺失占比多, 需要用众数填充；

data['student_feature'

最低0.47元/天解锁文章

落木~

关注

7
点赞
踩
16

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录