逻辑 回归返回的数字,即便本质上不是概率,却也有着概率的各种性质,可以被当成是概率来看待和使用。
主要应用在金融领域
逻辑的优点:
1、逻辑回归对线性关系的拟合效果好;
2、逻辑回归计算快;
3、逻辑回归返回的分类结果不是固定的0,1,而是以小数形式呈现的类概率数字;
4、抗噪能力强
逻辑回归在sklearn.linear_model下面
以制作评分卡来梳理一下构建模型的思路:
1.导库,获取数据
2.探索数据与数据预处理
2.1 去除重复值
2.2 填补缺失值
2.3 描述性统计处理异常值
2.4 样本不均衡:可以采用上采样来平衡样本
2.5 分训练集和测试集
3.分箱
(基本步骤:
1
)我们首先把连续型变量分成一组数量较多的分类型变量,比如,将几万个样本分成
100
组,或
50
组
2
)确保每一组中都要包含两种类别的样本,否则
IV
值会无法计算
3
)我们对相邻的组进行卡方检验,卡方检验的
P
值很大的组进行合并,直到数据中的组数小于设定的
N
箱为止
4
)我们让一个特征分别分成
[2,3,4.....20]
箱,观察每个分箱个数下的
IV
值如何变化,找出最适合的分箱个数
5
)分箱完毕后,我们计算每个箱的
WOE
值, bad%,观察分箱效果.
这些步骤都完成后,我们可以对各个特征都进行分箱,然后观察每个特征的
IV
值,以此来挑选特征。)
3.1 等频分箱
3.2 定义WOE和IV函数
3.3 卡方检验,合并箱体,画出IV曲线
3.4 用最佳分箱个数分箱,并验证分箱结果
3.5 将选取最佳分箱个数的过程包装成函数
3.6 对所有特征进行分箱选择
4. 计算各箱的WOE并映射到数据中
5. 建模与模型验证
6. 制作评分卡