类别特征的独热编码和二进制编码

我们在建模之前,一般需要对数据进行预处理。对于分类变量,一般模型不能直接作为变量输入,需要进行编码。分类变量常用编码方式如下:

有序变量:序号编码

无序变量:独热编码、二进制编码

下面为大家介绍独热编码和二进制编码之间的区别。

1)独热编码:独热编码会将变量的不同取值(N种取值)分别赋予一个只有1位为0的N维向量。例如星期,共有7个取值,独热编码会把它编码成一个7维稀疏向量。星期一表示为(1,0,0,0,0,0,0),星期二表示为(0,1,0,0,0,0,0),星期三表示为(0,1,0,0,0,0,0),星期日表示为(0,0,0,0,0,0,1)。

2)二进制编码:二进制编码分为两步,①先为变量的每一个取值赋予一个类别ID;②将ID对应的二进制编码作为结果。仍以星期为例,星期一的ID为1,二进制表示为001;星期二的ID为2,二进制表示为010;以此类推,可以得到变量所有取值的二进制编码。

二进制和独热编码的结果如下:

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值