哑变量(Dummy Variable)、独热编码(one-hot Encoding)、label-encoding归纳

1 概念

1.1 定类型变量
定类类型就是纯分类,不排序,没有逻辑关系.
当某特征具有k个属性值,那么:
a 哑变量(虚拟变量)—— 具有k-1个二进制特征,基准类别将被忽略,若基准类别选择不合理,仍存在共线性,建议众数的类别为基准类别。
b 独热编码——具有k个特征二进制特征。
1.2 定序型变量
标签编码——用自定义的数字对原始特征进行打标签,只有1个特征,适用于有序的分类变量。

姓名 年纪 年级
小明 六年级
康康 二年级
迈克 三年级

哑变量/虚拟变量

姓名
小明 1 0
康康 0 1
迈克 0 0

独热编码

姓名
小明 1 0 0
康康 0 1 0
迈克 0
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值