1 概念
1.1 定类型变量
定类类型就是纯分类,不排序,没有逻辑关系.
当某特征具有k个属性值,那么:
a 哑变量(虚拟变量)—— 具有k-1个二进制特征,基准类别将被忽略,若基准类别选择不合理,仍存在共线性,建议众数的类别为基准类别。
b 独热编码——具有k个特征二进制特征。
1.2 定序型变量
标签编码——用自定义的数字对原始特征进行打标签,只有1个特征,适用于有序的分类变量。
姓名 | 年纪 | 年级 |
---|---|---|
小明 | 童 | 六年级 |
康康 | 青 | 二年级 |
迈克 | 中 | 三年级 |
哑变量/虚拟变量
姓名 | 童 | 青 |
---|---|---|
小明 | 1 | 0 |
康康 | 0 | 1 |
迈克 | 0 | 0 |
独热编码
姓名 | 童 | 青 | 中 |
---|---|---|---|
小明 | 1 | 0 | 0 |
康康 | 0 | 1 | 0 |
迈克 | 0 |