特征工程之OneHot独热编码

如果有离散特征,如[‘Arsenal’,‘ManCity’,‘Liverpool’],将它们转换为数字表示更好[0,1,2]即使转化为数字表示后,上述数据也不能直接用在很多的分类器中。因为,分类器数据往往是连续的、有序的。但是,按照我们上述的表示,数字并不是有序的,而是随机分配的。使用OneHot就可以解决此类问题其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。例如拥有六个状态的属性独热编码为:000001,000010,000100
摘要由CSDN通过智能技术生成

如果有离散特征,如
[‘Arsenal’,‘ManCity’,‘Liverpool’],将它们转换为数字表示更好[0,1,2]
即使转化为数字表示后,上述数据也不能直接用在很多的分类器中。因为,分类器数据往往是连续的、有序的。但是,按照我们上述的表示,数字并不是有序的,而是随机分配的。

使用OneHot就可以解决此类问题
其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都由他独立的寄存器位,并且在任意时候,其中只有一位有效。
例如拥有六个状态的属性独热编码为:000001,000010,000100,001000,010000,100000
对于一个特征,如果它有m个可能值,那么经过独热编码后,就变成了m个二元特征。并且,这些特征互斥,每次只有一个激活。

Python例子:

import pandas as pd
import numpy as np

test_dict = {
   'id':[1
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值