数据挖掘第二章 认识数据
认识数据
2.1 数据对象与属性类型
数据对象 - 实体
属性 - 描述数据对象,数据对象的一个特征
属性的类型:
- 标称属性nominal attribute
- 值是符号或事物的名称(枚举的)
- 可以用数字表示 => 均值、中位数无意义,众数有意义(中心趋势度量)
- 二元属性binary attribute
- 标称属性的一种,只有0,1两种状态
- 对称的:状态同等价值与权重
- 非对称的:状态的结果不是同样重要
- 序数属性ordinal attribute
- 具有有意义的先后次序,且相继值之间的差未知
- 应用:记录不能客观度量的主观质量评估
- 连续数值经数据归约 => 序数属性
- 不可定义均值
- 数值属性numeric attribute
- 区间标度属性
- 比率标度属性
- 离散属性与连续属性
2.2 数据的基本统计描述
2.2.1 中心趋势度量:均值、中位数和众数
- 均值
- 加权算术平均( w i w_i wi)
- 截尾均值(去前x%)
- 中位数(非对称/倾斜数据:正倾斜、负倾斜)
- 数据量很大: m e d i a n = L 1 + N / 2 − ( ∑ f r e q ) l f r e q m e d i a n w i d t h median = L_1+\frac{N/2-(\sum freq)_l}{freq_{median}}width median=L1+freqmedianN/2−(∑fre