One-Hot Encoding

数据预处理之独热编码

问题由来

在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。如性别可分为”male”和”female”。对于这样的特征,通常我们需要对其进行特征数字化,如有以下三个特征属性:
性别:[“male”,”female”]
地区:[“Europe”,”US”,”Asia”]
浏览器:[“Firefox”,”Chrome”,”Safari”,”Internet Explorer”]
对于以下两个样本:
[“male”,”US”,”Internet Explorer”]
[“female”,”Asia”,”Chrome”]
如果采用序列化的方式表示,则以上两个样本特征数字化的结果分别为[0,1,3],[1,2,1],但是即使转化为数字表示后,上述数据也不能直接用在我们的分类器中。因为分类器往往默认数据是连续的,并且是有序的。但是,按照上述的表示,数字并不是有序的,而是随机分配的。

One-Hot Encoding

One-Hot编码,又称为一位有效编码,主要采用N位状态寄存器对N各状态进行编码,每个状态都有它独立的寄存位,并且在任意时候只有一位有效。如:
自然状态码为:000,001,010,011,100,101
独热编码为:000001,000010,000100,001000,010000,10000
可以这样理解,对于每一个特征,如果它有m个可能值,那么经过独热编码后,就变成了m个二元特征。并且,这些特征互斥,每次只有一个激活。因此数据会变成稀疏的。
这样做的好处有:

  1. 解决了分类器不好处理属性数据的问题
  2. 在一定程度上也起到了扩充特征的作用

对于上述问题,性别的属性是二维的,地区是三维的,浏览器则是四维的,这样我们可以采用One-Hot编码的方式对上述样本进行编码,如下表:

特征编码
male[1,0]
female[0,1]
Europe[1,0,0]
US[0,1,0]
Asia[0,0,1]
Firefox[1,0,0,0]
Chrome[0,1,0,0]
Safari[0,0,1,0]
Internet Explorer[0,0,0,1]

那么,针对以下样本,
[“male”,”US”,”Internet Explorer”]
[“female”,”Asia”,”Chrome”]

其完整的特征数字化的结果分别为:[1,0,0,1,0,0,0,0,1]与[0,1,0,0,1,0,1,0,0]

实际的Python代码

from sklearn import preprocessing
enc = preprocessing.OneHotEncoder()
enc.fit([[0,0,3],[1,1,0],[0,2,1],[1,0,2]])
array = enc.transform([[0,1,3]]).toarray()
print array

结果输出[[ 1. 0. 0. 1. 0. 0. 0. 0. 1.]]

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值