哑变量(Dummy Variable)、独热编码(one-hot Encoding)、label-encoding归纳

Wanhe.Qin

于 2020-06-12 11:37:38 发布

阅读量9.1k

点赞数 4

分类专栏：机器学习文章标签：机器学习 python

本文链接：https://blog.csdn.net/qq_41933542/article/details/106711111

版权

1 概念

1.1 定类型变量
定类类型就是纯分类，不排序，没有逻辑关系.
当某特征具有k个属性值，那么：
a 哑变量（虚拟变量）—— 具有k-1个二进制特征，基准类别将被忽略,若基准类别选择不合理，仍存在共线性，建议众数的类别为基准类别。
b 独热编码——具有k个特征二进制特征。
1.2 定序型变量
标签编码——用自定义的数字对原始特征进行打标签，只有1个特征，适用于有序的分类变量。