-
One-Hot Encoding(独热编码):
- One-Hot Encoding 是将分类变量转换为二进制向量的编码方法。对于具有 n 个不同类别的分类变量,One-Hot Encoding 会创建一个长度为 n 的二进制向量,其中只有一个元素为 1,其余元素为 0,该元素对应于该分类变量的类别。
- 例如,对于一个性别变量,可以创建两个新变量:
Is_Male
和Is_Female
,其中一个表示男性(1, 0),另一个表示女性(0, 1)。
-
Label Encoding(标签编码):
- Label Encoding 是将分类变量的每个类别映射到一个整数值的编码方法。对于具有 n 个不同类别的分类变量,Label Encoding 将每个类别依次映射到整数值 0 到 n-1。
- 例如,对于一个颜色变量,可能将红色编码为 0,绿色编码为 1,蓝色编码为 2 等。
-
WOE Encoding(Weight of Evidence 编码):WOE编码(证据权重编码):
- WOE 编码是一种用于对分类变量进行编码的方法,特别适用于评分卡建模等场景。它使用每个类别的好坏比(Good/Bad ratio)来编码每个类别,用于描述该类别相对于其他类别的重要性。
- WOE 编码的计算公式是:WOE=ln(%Good%Bad)WOE=ln(%Bad%Good),其中 % Good 和 % Bad 分别表示该类别中好客户和坏客户的比例。
- WOE 编码的值可以被解释为某一类别相对于整个样本的相对影响,正值表示该类别对好客户的影响更大,负值表示该类别对坏客户的影响更大。
10-18
1775
![](https://csdnimg.cn/release/blogv2/dist/pc/img/readCountWhite.png)
10-22
3507
![](https://csdnimg.cn/release/blogv2/dist/pc/img/readCountWhite.png)