机器学习各类编码方式

  1. One-Hot Encoding(独热编码)

    • One-Hot Encoding 是将分类变量转换为二进制向量的编码方法。对于具有 n 个不同类别的分类变量,One-Hot Encoding 会创建一个长度为 n 的二进制向量,其中只有一个元素为 1,其余元素为 0,该元素对应于该分类变量的类别。
    • 例如,对于一个性别变量,可以创建两个新变量:Is_MaleIs_Female,其中一个表示男性(1, 0),另一个表示女性(0, 1)。
  2. Label Encoding(标签编码)

    • Label Encoding 是将分类变量的每个类别映射到一个整数值的编码方法。对于具有 n 个不同类别的分类变量,Label Encoding 将每个类别依次映射到整数值 0 到 n-1。
    • 例如,对于一个颜色变量,可能将红色编码为 0,绿色编码为 1,蓝色编码为 2 等。
  3. WOE Encoding(Weight of Evidence 编码):WOE编码(证据权重编码):

    • WOE 编码是一种用于对分类变量进行编码的方法,特别适用于评分卡建模等场景。它使用每个类别的好坏比(Good/Bad ratio)来编码每个类别,用于描述该类别相对于其他类别的重要性。
    • WOE 编码的计算公式是:WOE=ln⁡(%Good%Bad)WOE=ln(%Bad%Good​),其中 % Good 和 % Bad 分别表示该类别中好客户和坏客户的比例。
    • WOE 编码的值可以被解释为某一类别相对于整个样本的相对影响,正值表示该类别对好客户的影响更大,负值表示该类别对坏客户的影响更大。
  • 4
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值