数据质量分析
- 目的: 数据挖掘的数据质量分析以评估数据的正确性和有效性为目标,而在通常的数据挖掘中主要关注正确性,确保数据的正确性自然是数据质量分析的首要目标。
- 数据正确性:
- 缺失值 : null 或者无意义的值
- 数据错误 :输入时排字错误
- 度量标准错误: 不正确的度量标准
- 编码不一致: 非标准度量单位、不一致的值。如:同时使用M、male表示性别。
- 数据有效性:
- 数据统计方面的信息。
- 占比
- 方差
- 均值
- 分位数
- 方法:
- 对象:宽表
- 变量:数值变量、分类变量
- 数值变量:离散型、连续型
- 常用方法:值分析、统计分析(偏度)、频次与直方图分析。
- 结果及应用
- 数据质量分析的结果通常是一份数据质量分析报告。
3.3 数据预处理
- 现实中采集的数据的准确性、完整性、一致性都很差。
- 数据通常存在可信性和可解释性的问题:例如生日信息1月1日、通过编码代替某些信息等。
- 数据预处理的主要任务:
- 数据清洗:通过填写缺失数据,光滑噪声数据,识别或者删除离群点并解决不一致性等方式清洗数据。
- 删除法:缺失值所占样本比例较小(<5%)
- 插补法:
- 数据集成:把不同来源、格式、性质的数据在逻辑上或者物理上有机地集中。
- 数据规约:把得到的数据集简化表示,虽小得多,但能够产生同样的分析结果。
- 数据变换:从一种表示形式变为另一种表示形式的过程。
- 数据清洗:通过填写缺失数据,光滑噪声数据,识别或者删除离群点并解决不一致性等方式清洗数据。