数据对象与属性类别
数据对象又称样本,实例,数据点或对象。通常数据对象用属性描述,一个数据对象代表一个实体,多个数据对象组成了数据集。如果数据对象存放在数据库中,则它们是数据元组。也就是说数据表的每一行对应于数据对象,而每一例则对应于属性。
属性的定义
属性是对象的性质或特性,它因对象而异或随时间而变化。在数据挖掘中,属性是一个数据字段,表示数据对象的特征。
属性的分类
属性的类型由该属性可能具有的值得集合决定,属性可以分为以下几类:标称属性,二元属性,序数属性,数值属性等。
-
标称属性。
标称属性的值是一些符号或事物的名称。每个值代表某种类别,编码或状态,因此标称属性又称为是分类的。 -
二元属性。
二元属性是标称属性的一种特殊情况,它只有两个类别或状态即0或1。其中,0通常表示该属性不出现而1表示出现。二元属性又称为布尔属性,0和1两种状态分别对应于false 和true .对称的两种状态,具有同等价值且有相同的权重。非对称的其状态的结果不是同样重要。 -
序数属性
属性的属性值之间存在等级关系。在序数属性中,其可能的值之间具有意义的序或秩评定。 -
数值属性
数值属性是定量的,即他是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。
区间标度属性用相等的单位尺度度量。区间属性的值有序,可以为正、0或负。例如:温度和时间相差几天。
比率标注属性是具有固有零点的数值属性。简单地说,如果度量是比率标度的,则可以说一个只值是另一个直的倍数或比率。此外,这些值是有序的,因此可以计算值之间的差,也能计算均值,中位数和众数。