独热编码和哑编码的区别(易懂)

独热编码(one-hot encoding)

基于数据集的某一特征的N个状态值,用N位编码来作区别

例如将人群基于年龄特征分为:婴儿,幼儿,少年,青年,中年,老年六个状态,则需六位编码来做区分,如下图:

婴儿幼儿少年青年中年老年
100000010000001000000100000010000001

其中每一个状态位代表当前状态是否激活,1为激活,0为未激活。

比如婴儿这个状态,第一个状态位代表婴儿状态,值为1,代表婴儿状态为激活状态,其他五位为0,代表其他的五个特征为未激活状态。

哑编码(dummy encoding)

基于数据集的某一特征的N个状态值,用N-1位编码来作区别

同样还是上述案例,用哑编码区别如下:

婴儿幼儿少年青年中年老年
100000100000100000100000100000

和独热编码一样,前五个状态每一个状态位代表当前状态是否激活,1为激活,0为未激活。

区别在于最后一个状态位,当前五个状态位都为未激活的状态,则默认为第六个状态。

老年人的五个状态位都为未激活状态,说明,前五个状态都不是,那么就默认为第六个状态——老年人。

  • 8
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值