最重要的事情开始都会讲:建模是始终服务于业务的,没有业务的评分卡就没有灵魂
样本的使用:
训练集
训练模型 用来学习的样本集,用于分类器参数的拟合
测试集
调节参数 用来调整分类器超参数的样本集,比如罚项,学习率等
验证集
验证模型泛化能力
仅用于对已经训练好的分类器进行性能评估的样本集 (样本外验证同理,仅用于测试数据的结果)
交叉验证集:(比如K-fold)
1 训练集+验证集 as 模型 测试集独立存在
2 交叉验证 小样本操作 验证集 训练集 忽略
3 测试集和训练集概念可互换
注:也有讲测试集 是指样本外的数据,验证集是样本内验证都可以
结果的可复盘性
训练集和测试集是随机区分的,当设定random_state的状态后,后期做复盘具有依据
# random_state 指确定数据的具体情况,test_size 训练集 测试集比例
trainData, testData = train_test_split(sampleData,test_size=0.2,random_state =22)
建模篇
初次跑数据
导入模块
import pandas as pd
import pickle
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import seaborn as sns
from statsmodels.stats.outliers_influence import variance_inflation_factor
from sklearn.linear_model import LogisticRegressionCV
import statsmodels.api as sm
from sklearn.ensemble import RandomFo