数据预处理常用方法总结

最新推荐文章于 2024-05-25 00:12:06 发布

积跬步，慕至千里

最新推荐文章于 2024-05-25 00:12:06 发布

阅读量9.1k

点赞数 2

分类专栏：数据预处理库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42521211/article/details/107004579

版权

数据预处理库专栏收录该内容

5 篇文章 0 订阅

订阅专栏

目录

一、数据清理
- 1 处理缺失值
- 2 噪声数据
二、数据集成
三、数据变换

数据预处理包括多种方法，诸如数据清理、数据集成、数据变换等。

一、数据清理

数据清理主要是处理缺失数据、噪声数据等。

1 处理缺失值

处理缺失值常用方法：

删除数据：根据缺失情况，按行删除或者按列删除
度量填补缺失值：可以根据数据属性，采用均值、中位数、众数等中心度量值来填补缺失数据
预测填补缺失值：可以将缺失属性作为因变量，建立分类或回归模型，对缺失值进行建模填补

2 噪声数据

对于噪声数据主要通过光滑的操作，可以通过：

分箱操作。其主要思想为每一个数据与它的“近邻”数据应该是相似的，因此将数据用其近邻（“箱”或“桶”）替代，这样既可以光滑有序数据值，还能在一定程度上保持数据的独有特点。
回归处理。通过一个映像或函数拟合多个属性数据，从而达到光滑数据的效果。
离群点分析。聚类可以将相似的值归为同一“簇”，因此主要使用聚类等技术来检测离群点。

二、数据集成

需要的数据往往分布在不同的数据源中，数据集成就是将多个数据源合并存放在一个一致的数据存储（如数据仓库）中的过程。在实际应用中，数据集成解决 3类问题：实体识别、冗余和相关分析，以及数值冲突的检测与处理。

1 实体识别

实体识别是指从不同数据源识别现实世界的实体，它的任务是统一不同源数据的矛盾之处。

2 冗余和相关分析

可以通过可视化、相关性分析等方法，来删除冗余数据

3 数值冲突的检测与处理

对于现实世界的同一实体，由于表达方式、尺度标准或编码的不同常导致元数据的巨大差异。因此要对数据进行尺度标准或编码的统一。

三、数据变换

常用的数据变换操作有：数据规范化、数据里散化、概念分层。

1 数据规范化

数据规范化的目的是将数据按比例缩放，使得属性之间的权值适合数据挖掘。
常见的数据规范化方法包括：

最小-最大规范化
z-score分数规范化
小数定标规范化等。

2 数据离散化

数据离散化是将数值属性的原始值用区间标签或概念标签替换的过程，它可以将连续属性值离散化。

3 概念分层

概念分层的主要思想是将低层概念的集合映射到高层概念的集合。

实际操作不一一细化了，相对来说大部分操作都是python学习过程中的基础练习。

积跬步，慕至千里

关注

2
点赞
踩
38

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据预处理常用方法总结

目录一、数据清理1 处理缺失值2 噪声数据二、数据集成1 实体识别2 冗余和相关分析3 数值冲突的检测与处理三、数据变换1 数据规范化2 数据离散化3 概念分层数据预处理包括多种方法，诸如数据清理、数据集成、数据变换等。一、数据清理数据清理主要是处理缺失数据、噪声数据等。1 处理缺失值处理缺失值常用方法：删除数据：根据缺失情况，按行删除或者按列删除度量填补缺失值：可以根据数据属性，采用均值、中位数、众数等中心度量值来填补缺失数据预测填补缺失值：可以将缺失属性作为因变量，建立分类或回归模.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

积跬步，慕至千里 你的鼓励将是我创作的最大动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。