大数据分析与挖掘-Part2-数据预处理
为什么要进行数据预处理?
-
初始数据集的准备与变化是数据挖掘的过程中重要步骤
-
包含大量不完整,含噪声和不完整的数据是大数据应用中的典型特点
-
数据的预处理能够有效提高数据质量,节约大量的时间和空间
-
大部分数据挖掘算法对输入数据的格式,质量以及规模有一定的要求
-
现实世界的数据是“脏的”
-
随着数据规模的增加,会出现很多数据质量问题:
不完整
- 缺失值:缺乏某些重要属性,仅包含聚集数据
噪声
- 包含错误值,离群点
不一致
- 由于重复存放的数据未能进行一致性地更新造成的
- 多用户系统,更新操作未能同步进行而引起
- 由于各种故障,错误造成的
-
没有有质量的数据,就没有有质量的挖掘结果(No quality data,No quality mining result!)
评价数据质量的指标
完整性(Completeness)
记录的缺失,一个对象遗漏一个或多个属性值,有实体完整性,域完整性,参照完整性
一致性(Consistency)
多个数据间更新的同步,包括数据记录的规范和数据逻辑的一致性
时效性(Timeliness)
是否及时更新
可信性(Believability)
解释性(Interpretability)
数据的汇总统计
为量化的,用单个数或小集合捕获可能很大的值集的各种特征
描述数据集中趋势的度量
平均数
- 优点:能够利用所有数据的特征,而且比较好算
- 缺点:平均数容易受极端数据的影响。
中位数
- 按数序排列的一组数据中居于中间位置的数据。
- 它不受最大,最小两个极端数值的影响,部分数据的变动对中位数没有影响,当一组数据中的个别数据变动较大时,常用于描述这组数据的集中趋势。
众数
- 在一组数据中出现次数最多的数据。
- 适合数据量较多时使用,且不受极端值的影响
- 当数值或被观察者没有明显次序(常发生于非数值性资料)时特别有用,因为这类数据无法很好地定义算数平均数和中位数。
集中趋势到分布形态度量——偏度
- 偏度是统计数据分布偏斜方向和程度的变量
描述数据离散程度的度量
极差
- 极差是指一组测量值内最大值与最小值之差,又称范围误差或全距,以R表示
- 优点:能够体现一组数据波动的范围,极差越大,离散程度越大
- 缺点:未能 利用全部测量值的信息