数据预处理

数据质量标准:准确性、完整性、一致性、时效性、可信性和可解释性

数据预处理主要步骤

数据清理、数据集成、数据归约和数据变换

1、数据清理

填写缺失数据、光滑噪声数据、识别或删除离群数据点

缺失数据:忽略、人工填写、其他变量填充(均值、中位数、众数)
噪声数据:噪声是被测量的变量的随机误差或方差

分箱:用箱的均值或中位数光滑 (如:箱1中的值4、8、15的均值是9,因此,箱中每一个值都被9替换)
回归:用一个函数拟合数据来光滑数据

离群点分析:聚类来检测离群点

2、数据集成

合并来自多个数据存储的数据

冗余和相关性分析

一个属性如果能由另一个或另一组属性“导出”,则这个属性可能是冗余的
对于标称数据,可以通过卡方检验;对于数值数据,使用相关系数和协方差

卡方检验

卡方统计检验假设A和B是独立的,检验基于显著水平,具有自由度(r-1)(c-1),如果拒绝该假设,则我们说A和B是统计相关的
在这里插入图片描述
当卡方值<目标值的时候,可以接受原假设,即变量之间没有相关性。卡方值越小,不相关的概率越大。现在卡方值远大于目标值,说明两者不相关的概率很小。

协方差

cov(A,B)=E(A*B)-AB(均值),协方差为0表示两个变量独立

3、数据规约

数据规约包括:维归约、数量归约和数据压缩

3.1 维归约

减少所考虑的随机变量或属性的个数。维归约方法包括小波变化和主成分分析,它们把原数据变换或投影到较小的空间。属性子集选择是种归约方法,其中不相关、弱相关或冗余的属性或维被检测和删除。属性子集选择(逐步向前选择、向后选择、向前和向后组合、决策树归纳)

3.2 数量归约

用替代的、较小的数据表示形式替换原数据。技术分为参数的或非参数的
直方图使用分箱来近似数据分布,是一种流行的数据归约形式。
抽样它允许用数据小的多的随机样本表示大型数据集。采用抽样进行数据归约的优点是,得到样本的花费正比例于样本集的大小

3.3 数据压缩

使用变换得到原数据的归约或“压缩”表示,如果原数据可以由压缩后的数据重构,而不损失任何信息,则数据压缩是无损的,否则是有损的

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值