AI训练营金融风控—06学习赛：贷款违约预测打卡

宇宙高能量者

于 2023-01-18 16:40:27 发布

阅读量219

点赞数

分类专栏： AI训练营金融风控文章标签：人工智能学习数据挖掘

本文链接：https://blog.csdn.net/irisxiaoyuer/article/details/128648740

版权

本学习笔记为阿里金融风控训练营的学习内容，学习链接为：AI训练营金融风控-阿里云天池

我的完整笔记为：AI训练营金融风控—06学习赛：贷款违约预测打卡_天池notebook-阿里云天池

回顾：

AI训练营金融风控—01赛题理解打卡_宇宙高能量者的博客-CSDN博客

AI训练营金融风控—02EDA探索性数据分析打卡_宇宙高能量者的博客-CSDN博客

AI训练营金融风控—03特征工程打卡_宇宙高能量者的博客-CSDN博客

AI训练营金融风控—04建模与调参打卡_宇宙高能量者的博客-CSDN博客

AI训练营金融风控—05模型融合打卡_宇宙高能量者的博客-CSDN博客

一、学习知识点概要

赛题以预测用户贷款是否违约为任务，数据集报名后可见并可下载，该数据来自某信贷平台的贷款记录，总数据量超过120w，包含47列变量信息，其中15列为匿名变量。为了保证比赛的公平性，将会从中抽取80万条作为训练集，20万条作为测试集A，20万条作为测试集B，同时会对employmentTitle、purpose、postCode和title等信息进行脱敏。

评价方法为AUC评估模型效果（越大越好）。

二、学习内容

EDA探索性数据分析
特征工程
建模与调参
模型融合
学习赛：贷款违约预测

三、学习问题与解答

1. 引入包

import pandas as pd
import numpy as np
import warnings
import os
import seaborn as sns
import matplotlib.pyplot as plt
"""
sns 相关设置
@return:
"""
# 声明使用 Seaborn 样式
sns.set()
# 有五种seaborn的绘图风格，它们分别是：darkgrid, whitegrid, dark, white, ticks。默认的主题是darkgrid。
sns.set_style("whitegrid")
# 有四个预置的环境，按大小从小到大排列分别为：paper, notebook, talk, poster。其中，notebook是默认的。
sns.set_context('talk')
# 中文字体设置-黑体
plt.rcParams['font.sans-serif'] = ['SimHei']
# 解决保存图像是负号'-'显示为方块的问题
plt.rcParams['axes.unicode_minus'] = False
# 解决Seaborn中文显示问题并调整字体大小
sns.set(font='SimHei')

import pandas as pd
import os
import gc
import lightgbm as lgb
import xgboost as xgb
from catboost import CatBoostRegressor
from sklearn.linear_model import SGDRegressor, LinearRegression, Ridge
from sklearn.preprocessing import MinMaxScaler
import math
import numpy as np
from tqdm import tqdm
from sklearn.model_selection import StratifiedKFold, KFold
from sklearn.metrics import accuracy_score, f1_score, roc_auc_score, log_loss
import matplotlib.pyplot as plt
import time
import warnings
warnings.filterwarnings('ignore')

2. 读取数据

train = pd.read_csv('http://tianchi-media.oss-cn-beijing.aliyuncs.com/dragonball/FRC/data_set/train.csv')
testA = pd.read_csv('http://tianchi-media.oss-cn-beijing.aliyuncs.com/dragonball/FRC/data_set/testA.csv')

print('Train data shape:',train.shape)
print('TestA data shape:',testA.shape)

train.head(2)

3. 数据探索

# 有缺失值的特征
print(f'There are {train.isnull().any().sum()} columns in train dataset with missing values.')

# 缺失值大于50%的特征
have_null_fea_dict = (train.isnull().sum()/len(train)).to_dict()
fea_null_moreThanHalf = {}
for key,value in have_null_fea_dict.items():
    if value > 0.5:
        fea_null_moreThanHalf[key] = value
fea_null_moreThanHalf


# nan可视化
missing = train.isnull().sum()/len(train)
missing = missing[missing > 0]
missing.sort_values(inplace=True)
missing.plot.bar()


#过滤数值型类别特征
def get_numerical_serial_fea(data,feas):