数据预处理

最新推荐文章于 2024-03-28 16:22:08 发布

DB_UP

最新推荐文章于 2024-03-28 16:22:08 发布

阅读量182

点赞数

文章标签： python 人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012121721/article/details/128815408

版权

数据质量标准：准确性、完整性、一致性、时效性、可信性和可解释性

数据预处理主要步骤

数据清理、数据集成、数据归约和数据变换

1、数据清理

填写缺失数据、光滑噪声数据、识别或删除离群数据点

缺失数据：忽略、人工填写、其他变量填充（均值、中位数、众数）
噪声数据：噪声是被测量的变量的随机误差或方差

分箱：用箱的均值或中位数光滑（如：箱1中的值4、8、15的均值是9，因此，箱中每一个值都被9替换）

回归：用一个函数拟合数据来光滑数据

离群点分析：聚类来检测离群点

2、数据集成

合并来自多个数据存储的数据

冗余和相关性分析

一个属性如果能由另一个或另一组属性“导出”，则这个属性可能是冗余的
对于标称数据，可以通过卡方检验；对于数值数据，使用相关系数和协方差

卡方检验

卡方统计检验假设A和B是独立的，检验基于显著水平，具有自由度（r-1）(c-1)，如果拒绝该假设，则我们说A和B是统计相关的
在这里插入图片描述
当卡方值<目标值的时候，可以接受原假设，即变量之间没有相关性。卡方值越小，不相关的概率越大。现在卡方值远大于目标值，说明两者不相关的概率很小。

协方差

cov(A,B)=E(A*B)-AB(均值)，协方差为0表示两个变量独立

3、数据规约

数据规约包括：维归约、数量归约和数据压缩

3.1 维归约

减少所考虑的随机变量或属性的个数。维归约方法包括小波变化和主成分分析，它们把原数据变换或投影到较小的空间。属性子集选择是种归约方法，其中不相关、弱相关或冗余的属性或维被检测和删除。属性子集选择（逐步向前选择、向后选择、向前和向后组合、决策树归纳）

3.2 数量归约

用替代的、较小的数据表示形式替换原数据。技术分为参数的或非参数的
直方图使用分箱来近似数据分布，是一种流行的数据归约形式。
抽样它允许用数据小的多的随机样本表示大型数据集。采用抽样进行数据归约的优点是，得到样本的花费正比例于样本集的大小

3.3 数据压缩

使用变换得到原数据的归约或“压缩”表示，如果原数据可以由压缩后的数据重构，而不损失任何信息，则数据压缩是无损的，否则是有损的

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
数据预处理

数据预处理
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。