从样本集到WOE、IV值的变迁
样本集
- 在建模任务开始之前首先需要有训练数据,也就是样本集。在对样本集的所有特征数据进行整理和预处理后,就可以对每一个特征的各个取值计算WOE。
WOE(Weight of Evidence)证据权重
-
WOE是对原始特征的一种编码形式,要对一个变量进行WOE编码,需要首先把这个变量进行分组处理(也叫离散化、分箱),如果是离散变量可以直接进行编码。
-
对每个分组或取值,响应比例(二分类取值为1的正样本比例)越大,WOE值越大;当前分组WOE的正负,由当前分组响应和未响应的比例,与样本整体响应和未响应的比例的大小关系决定,当前分组的比例小于样本整体比例时,WOE为负,当前分组的比例大于整体比例时,WOE为正,当前分组的比例和整体比例相等时,WOE为0。
-
计算公式:
- Y e s i {Yes_i} Yesi表示分组中的响应用户
- Y e s t o t a l {Yes_{total}} Yestotal 表示总响应用户
- N o i {No_i} Noi 表示分组中的未响应用户
- N o t o t a l No_{total} Nototal 表示总未响应用户
-
W O E i = l n ( Y e s i /