1 认识数据
1.1 数据对象和属性类型
数据集由数据对象组成。一个数据对象代表一个实体。通常,数据对象用属性描述。数据对象又称样本、实例、数据点或对象。
1.1.1 什么是属性
属性(attribute)是一个数据字段,表示数据对象的一个特征。用来描述一个给定对象的一组属性称做属性向量(或特征向量)。
1.1.2 标称属性
标称属性(nominal attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的(categorical)。这些值不必具有有意义的序。
1.1.3 二元属性
二元属性(binary attribute)是一种标称属性,只有两个类别或状态:0或1,其中0通常表示属性不出现,而1表示出现。二元属性又称布尔属性。
一个二元属性是对称的,如果它的两种状态具有同等价值并且携带相同的权重;即,关于哪个结果应该用0或1编码并无偏好。
一个二元属性是非对称的,如果其状态的结果不是同样重要的。为方便计,我们将用1对最重