python 独热码_Python机器学习之独热编码(一)

在机器学习算法中,常会遇到分类特征是离散的,无序的。例如:性别有男、女,城市有北京,上海,深圳等。

性别特征:

["男","女"] => 0,1

地区特征:

["北京","上海,"深圳"] => 0,1,2

工作特征:

["演员","厨师","公务员","工程师","律师"] => 0,1,2,3,4

比如,样本(女,北京,工程师)=>(1,0,3),但是,这样的特征处理并不能直接放入机器学习算法中,因为,分类器通常数据是连续且有序。解决这类问题,一种解决方法是采用独热编码(One-Hot Encoding)。

什么是独热编码

独热编码(One-Hot Encoding),又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一位有效。即,只有一位是1,其余都是零值。

例如,对六个状态进行编码:

自然顺序码为 000,001,010,011,100,101

独热编码则是 000001,000010,000100,001000,010000,100000

回到一开始的例子,性别特征:["男","女"],按照N位状态寄存器来对N个状态进行编码的原理:

性别特征:["男","女"](这里N=2)

男 => 10

女 => 01

地区特征:["北京","上海,"深圳"](这里N=3):

北京 => 100

上海 => 010

深圳 => 001

工作特征:["演员","厨师","公务员","工程师","律师"](这里N=5):

演员 => 10000

厨师 => 01000

公务员 => 00100

工程师 => 00010

律师 => 00001

所以,样本的特征是["女","北京","工程师"]的时候,独热编码(One-Hot Encoding)的结果为:[0,1,1,0,0,0,0,0,1,0]

  • 5
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值