数据质量标准:准确性、完整性、一致性、时效性、可信性和可解释性
数据预处理主要步骤
数据清理、数据集成、数据归约和数据变换
1、数据清理
填写缺失数据、光滑噪声数据、识别或删除离群数据点
缺失数据:忽略、人工填写、其他变量填充(均值、中位数、众数)
噪声数据:噪声是被测量的变量的随机误差或方差
分箱:用箱的均值或中位数光滑 (如:箱1中的值4、8、15的均值是9,因此,箱中每一个值都被9替换)
回归:用一个函数拟合数据来光滑数据
离群点分析:聚类来检测离群点
2、数据集成
合并来自多个数据存储的数据
冗余和相关性分析
一个属性如果能由另一个或另一组属性“导出”,则这个属性可能是冗余的
对于标称数据,可以通过卡方检验;对于数值数据,使用相关系数和协方差
卡方检验
卡方统计检验假设A和B是独立的,检验基于显著水平,具有自由度(r-1)(c-1),如果拒绝该假设,则我们说A和B是统计相关的
当卡方值<目标值的时候,可以接受原假设,即变量之间没有相关性。卡方值越小,不相关的概率越大。现在卡方值远大于目标值,说明两者不相关的概率很小。
协方差
cov(A,B)=E(A*B)-AB(均值),协方差为0表示两个变量独立
3、数据规约
数据规约包括:维归约、数量归约和数据压缩
3.1 维归约
减少所考虑的随机变量或属性的个数。维归约方法包括小波变化和主成分分析,它们把原数据变换或投影到较小的空间。属性子集选择是种归约方法,其中不相关、弱相关或冗余的属性或维被检测和删除。属性子集选择(逐步向前选择、向后选择、向前和向后组合、决策树归纳)
3.2 数量归约
用替代的、较小的数据表示形式替换原数据。技术分为参数的或非参数的
直方图使用分箱来近似数据分布,是一种流行的数据归约形式。
抽样它允许用数据小的多的随机样本表示大型数据集。采用抽样进行数据归约的优点是,得到样本的花费正比例于样本集的大小
3.3 数据压缩
使用变换得到原数据的归约或“压缩”表示,如果原数据可以由压缩后的数据重构,而不损失任何信息,则数据压缩是无损的,否则是有损的