目录
2.2.1对于类别取值比较多的情况下,使用独热编码注意以下问题:
1. 什么是类别型特征?
类别型特征(Categorical Feature)主要指的是性别(男、女)、血型(A、B、AB、O)等只在有限选项内取值的特征。
类别型特征原始输入通常是字符串变量,除了决策树等少数模型能够直接处理字符串形式输入,对于逻辑回归、支持向量机模型而言,类别型特征必须经过处理转换成数值型特征才能正确工作。
2. 处理类别型特征的编码方式有哪几种?
- 序号编码(Ordinal Encoding)
- 独热编码(One-hot Encoding)
- 二进制编码(Binary Encoding)
2.1 序号编码
序号编码通常是处理具有大小关系的数据。
例如成绩:分为高、中、低,并且存在排序关系,这样编码赋值后,比如高3,中2,低1转换后依然保证了大小关系。
2.2 独热编码
独热编码用于处理类比之间不具有大小关系的特征。
比如血型4种(A、