数据集由数据对象组成,一个数据对象代表一个实体。数据对象又称样本、实例、数据点或对象。属性(attribute)是一个数据字段,表示数据对象的一个特征。属性向量(或特征向量)是用来描述一个给定对象的一组属性。属性有不同类型:标称属性(nominal attribute)、二元属性(binary attribute)、序数属性(ordinal attribute)、 数值属性(numerical attribute)、离散属性与连续属性。
A、标称属性(nominal attribute)
标称属性的值是一些符号或实物的名称,每个值代表某种类别、编码或状态,所以标称属性又被看做是分类型的属性(categorical)。这些值不必具有有意义的序,并且不是定量的。
B、二元属性(binary attribute)
二元属性是一种标称属性,只有两个类别或状态:0或1,其中0常表示不出现,1表示出现。如果将0和1对应于false和true,二元属性则为布尔属性。
C、序数属性(ordinal attribute)
序数属性可能的取值之间具有有意义的序或秩评定,但相继值之间的差是未知的。例如,学生的成绩属性可以分为优、良、中、差四个等级;某快餐店的饮料杯具有大、中、小三个可能值。然而,具体“大”比“中”大多少是未知的。
序数属性可用于记录不能客观度量的主观质量评估。因此,序数属性常用于等级评定调查。如某销售部门客户服务质量的评估,0表示很不满意,1不太满意,2表示中性,3表示满意,4表示非常满意。
通过数据预处理中的数据规约,序数属性可以通过将数据的值域划分成有限个有序类别,将数值属性离散化而得到。应注意的是,标称、二元和序数属性都是定性的,只描述样本的特征,而不给出实际大小或数量。下面介绍提供样本定量度量的数值属性。
D、数值属性(numerical attribute)
数值属性是可度量的量,用整数或实数值表示,有区间标度和比率标度两种类型。
a) 区间标度(interval-scaled)属性
区间标度属性用相等的单位尺度度量。区间属性的值有序。所以,除了秩评定之外,这种属性允许比较和定量评估值之间的差。例如,身高属性是区间标度的。假设我们有一个班学生的身高统计值,将每一个人视为一个样本,将这些学生身高值排序,可以量化不同值之间的差。A同学身高170cm比B同学165cm高出5cm。
对于没有真正零点的摄氏温度和华氏温度,其零值不表示没有温度。例如,摄氏温度的度量单位是水在标准大气压下沸点温度与冰点温度之差的1/100。尽管可以计算温度之差,但因没有真正的零值,因此不能说10℃比5℃温暖2倍,不能用比率描述这些值。但比率标度属性存在真正的零点。
b) 比率标度(ratio-scaled)属性
比率标度属性的度量是比率的,可以用比率来描述两个值,即一个值是另一个值的倍数,也可以计算值之间的差。例如,不同于摄氏和华氏温度,开氏温度具有绝对零点。在零点,构成物质的粒子具有零动能。比率标度属性的例子还包括字数和工龄等计数属性,以及度量重量、高度、速度的属性。
E、离散属性与连续属性
前面介绍的四种属性类型之间不是互斥的。我们还可以用许多其他方法来组织属性类型,使类型间不互斥。机器学习领域的分类算法常把属性分为离散的或连续的属性。不同类型有不同的处理方法。
离散属性具有有限或无限可数个值。如学生成绩属性,优、良、中、差;二元属性取1和0以及年龄属性取0到110。如一个属性可能取值的值集合是无限的,但可以建立一个与自然数的一一对应,则其也是离散属性。如果一个属性不是离散的,则它是连续的。注意:在文献中,术语 “数值属性” 和“连续属性”常可以互换使用,因此,“连续属性”也常被称为“数值属性”。
参考书目《无监督学习方法及其应用》