在银行评分卡的项目中,通常都会需要把数据分箱,分箱后并不是对数据进行哑变量处理,而是用WOE值去替换,再放入模型中。
学习的过程中会对这些操作有些疑问,比如,数据分箱有什么意义,WOE和IV值是干什么的?这里对这些数据处理的意义进行一个说明。
数据分箱
数据分箱是把连续型数据分为几组,或者把离散数据中类别较多的,进行重新划分,划分为类别数较少的特征。
数据分箱的意义
- 把离散特征的类别进行分箱二次分类(比如,中国的所有城市,通过分箱划分为县区市地区等),可以让模型快读迭代。
- 对于连续特征,分箱会降低数据的噪声影响。分箱后的数据有很强的稳定性。
- 将连续数据分箱后,进行哑变量或独热编码的处理,每个特征中的每一类别就有了权重,这样相当于为模型引入的非线性,能够提升模型的拟合能力。
这里可以看到,原来的特征只有x1,哑变量处理后变成xa和xb(类比多项式回归),增强了逻辑回归处理非线性的能力
分箱的方法分为有监督和无监督。
- 有监督分箱:卡方分箱,Best-KS分箱(只能二分类)等。
- 无监督分箱:等宽分箱,等频分箱,聚类分箱,最小熵法等。
- 分箱方法介绍
注:连续值的分箱不一定是要分成离散数据,而是一种数据平滑的处理,可以几个数据分在一起,然后取其平均值或中位数,降低数据的噪声。
WOE和IV
将数据离散化后,要想放入逻辑回归模型中,需要对数据进行处理,因为数据中的123是类别不是大小,这个数量关系仅仅表示顺序,他们之间实质性的数值间隔你是不知道的(WOE可以解决这个问题)。而我们一般用的方法是哑变量,或独热编码,将特征中的类别提取出来,设为单独的一个特征。那什么是WOE?
WOE
woe全称是Weight of Evidence,即证据权重。是对原始自变量的一种编码形式。
WOE的两种公式理解
1.坏人的分布减去好人的分布。
2.每个箱中的坏人好人之间的比值 与 整个特征中坏人好人之间的比值 的差异。