2.认识数据
提出一些问题来开启数据的认识。数据由什么类型的属性或字段组成?每个属性具有何种类型的数据值?那些属性是离散的,那些事连续值的?数据值如何分布?什么方法更好地可视化数据可看出离群点?如何度量数据对象之间的相似性或相异性?
2.1数据对象与属性类型
数据集是由数据对象组成。一个数据对象代表一个实体。数据对象用属性描述。数据对象也称样本、实例、数据点或对象。如果数据对象存放在数据库中,则是数据元组,数据库的行对应于数据对象,而列对应于属性。
1) 什么是属性
属性(attribute)是一个数据字段,表示数据对象的一个特征。
属性、维(dimension)、特征(feature)和变量(variable)表示同样概念。
“维”一般用在数据仓库中。
“特征”用在机器学习中。
“变量”用在统计学中。
“属性”用在数据挖掘和数据库中。
给定属性的观测值称做观测。用来描述一个给定对象的一组属性称做属性向量(或特征向量)。设计一个属性(或变量)的数据分布称做单变量的(univariate)。双变量(bivariate)分布涉及两个属性。
一个属性的类型由该属性可能具有的值的集合决定。属性可以是标称的、二元的、序数的或数值的。
2)标称属性
标称意味与名称相关。标称属性(nominal attribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性也被看做是分类的(categorical),这些值不必具有有意义的序,在计算科学中,这些值也可看做是枚举的(enumeration)。
标称属性值并不具有有意义的序,并且不是定量的。对于标称属性来说,要描述其集中趋势,就是通过众数(mode)来。
3)二元属性
二元属性(binaryattribute)是一种标称属性,只有两个类别或状态:0或1。二元属性也称布尔属性。如果两种状态具有同等价值或相同权重,则是对称的;如果其状态的结果不是同样重要的,则是非对称的。
4)序数属性
序数属性(ordinalattribute),其可能的值之间具有有意义的序或秩平顶(ranking),但是相继值之间的差是未知的,适用于记录不能客观度量的主管质量评估,通常用于等级评定调查。
在数据归约中,序数属性可通过把数值量的值域划分为有限个有序类别,把数值属性离散化而得到。序数属性的中心趋势可以用它的众数和中位数(有序序列的中间值)表示,但不能定义均值。
标称、二元和序数属性都是定性的,即它们描述对象的特征,但不给出实际大小或数量。
5)数值属性
数值属性(numericattribute)是定量的,是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。
区间标度(interval-scaled)属性用相等的单位尺度度量。区间属性的值有序,可以为正、0或负。除了值的秩评定之外,该属性还允许比较和定量评估值之间的差。区间标度属性是数值的,可计算均值。
比率标度(ratio-scaled)属性具有固有零点的数值属性。就是说,如果度量是比率标度的,则可以说一个值是另一个的倍数(或比率)。值是有序的,可计算值之间的差,也可以计算均值、众数和中位数。
6)离散属性与连续属性
属性分类标称、二元、序数和数值类型。机器学习领域通常把属性分成离散的或连续的。离散属性具有有限或无限个数,可以用或不用整数表示。数值属性和连续属性是等同的,连续属性一般用浮点变量表示。