PART 5 风控建模篇：逻辑回归

最新推荐文章于 2024-08-10 22:19:54 发布

不安分不焦虑

最新推荐文章于 2024-08-10 22:19:54 发布

阅读量1.8k

点赞数 3

分类专栏：风控建模专栏文章标签：评分卡风控建模逻辑回归

本文链接：https://blog.csdn.net/qq_23483285/article/details/88344321

版权

本文探讨了风控建模中逻辑回归的应用，包括样本的划分（训练集、测试集、验证集）以及建模过程。通过设置随机状态确保结果可复盘性，初始模型跑数据后，基于回归系数优化，剔除不合适的变量。通过罚项处理防止过拟合，并结合训练集与测试集确定泛化能力强的变量，强调模型应始终服务于业务。

摘要由CSDN通过智能技术生成

最重要的事情开始都会讲：建模是始终服务于业务的，没有业务的评分卡就没有灵魂

样本的使用：

训练集

训练模型用来学习的样本集，用于分类器参数的拟合

测试集

调节参数用来调整分类器超参数的样本集，比如罚项，学习率等

验证集

验证模型泛化能力
仅用于对已经训练好的分类器进行性能评估的样本集（样本外验证同理，仅用于测试数据的结果）

交叉验证集：（比如K-fold）

1 训练集+验证集 as 模型测试集独立存在
2 交叉验证小样本操作验证集训练集忽略
3 测试集和训练集概念可互换

注：也有讲测试集是指样本外的数据，验证集是样本内验证都可以
在这里插入图片描述

结果的可复盘性

训练集和测试集是随机区分的，当设定random_state的状态后，后期做复盘具有依据

# random_state 指确定数据的具体情况，test_size 训练集 测试集比例
trainData, testData = train_test_split(sampleData,test_size=0.2,random_state =22)

建模篇

初次跑数据

导入模块
import pandas as pd
import pickle
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.stats.outliers_influence import variance_inflation_factor
from sklearn.linear_model import LogisticRegressionCV
import statsmodels.api as sm
from sklearn.ensemble import RandomFo