类别特征(Categorical Feature)
类别特征(Categorical Feature)是指取值为有限的、不连续的类别或标签的数据特征。在机器学习和数据分析中,类别特征经常用于描述对象的分类属性,例如颜色、性别、职业等。
1. 类别特征的特点
- 离散性:类别特征的值是离散的,不具有连续性。
- 有限性:类别特征的取值范围通常是有限的,例如颜色(红、绿、蓝)。
- 无序性:某些类别特征没有明确的大小顺序关系,例如职业类型。
- 可能存在层级关系:某些类别特征可能具有内在顺序关系,例如学历(高中 < 本科 < 硕士)。
2. 类别特征的常见类型
-
标称变量(Nominal Variable)
- 没有顺序关系的类别特征。
- 例子:颜色(红、绿、蓝)、职业(医生、教师、工程师)。
-
有序变量(Ordinal Variable)