1. 数据属性及其类型
1.1 数据类型的相关概念
- 数据对象(记录、点、向量、模式、事件、案例、样本、观测、实体):用一组刻画对象基本特性的属性描述
- 数据集( data set ):数据对象的集合
1.2 属性
1.2.1 属性与度量
- 属性( attributes )(变量、特性、字段、维):对象的性质或特征
- 测量标度( measurement scale ):将数值或符号值与对象的属性相关联的规则(函数)
- 测量过程使测量标度将值与对象属性相关联
- 属性类型:测量标度的类型
属性的值往往有如下性质:
- 相异性( distinctness )
- 序( order )
- 加法( addition )
- 乘法( multiplication )
1.2.2 属性类型
标称属性( nominal )
- 例如: ID 号,眼睛颜色,邮政编码
- 相异性
序数属性( ordinal )
- 例如:年级(1,2,3,4,5,6)、身高{高、中等、低),可乐{大杯、中杯、小杯}
- 相异性、序
区间属性( interval )
- 例如:日期,摄氏度,华氏度
- 相异性、序、加法
比率属性( ratio )
- 例如:长度、数量
- 相异性、序、加法、乘法
1.2.3 属性变换
- 属性的类型可以用不改变属性意义的变换来描述
- 当使用保持属性意义的变换对属性进行变换时,产生相同的结果
1.2.4 用值的个数来描述属性的类型划分
离散属性( discrete )
- 具有一系列有限个值或者无限可数个值
连续属性( continuous )
- 用实数作为属性值
二元属性( binary )
- 离散属性中的特例
非对称性属性( Asymmetric Attributes )
1.3 数据集
1.7.1 数据集的一般特性
维度( dimentionality )
分布( distribution )
- 是构成数据对象的属性的各种值或值的集合出现的频率
- 看作对数据空间各个区域中对象集中程度的描述
- 统计学上的分布类型
- 分布的倾斜度-------倾斜度的一个特例:稀疏性
分辨率( resolution )
1.7.2 数据集的类型
记录数据( record data )
- 记录数据
- 事物数据(transaction data)
- 数据矩阵(data matrix)
- 稀疏数据矩阵(文档-词矩阵document—term matrix)
基于图形的数据( graph - based data )
- 图形捕获数据对象之间的联系
- 数据对象本身用图形表示
有序数据( ordered data )
- 时序事务数据( sequential transaction data )
- 时间序列数据( time series data )
- 序列数据( sequence data )
- 空间数据( spatial data )