数据清洗（data cleaning）

最新推荐文章于 2024-05-14 17:20:24 发布

听说这是苹果头

最新推荐文章于 2024-05-14 17:20:24 发布

阅读量5.8k

点赞数

分类专栏： data mining 文章标签： big data cleaning

data mining 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据清洗是处理不完整、有噪声和不一致数据的过程，包括缺省值填充和噪声平滑。缺省值可通过回归等方法推测，但要注意过度拟合。噪声处理常用技术有分箱、回归和聚类。偏差检测涉及数据错误、退化和表示不当，数据变换则涉及替换数据值。整个过程通常需要迭代执行。

摘要由CSDN通过智能技术生成

大数据数据清洗（data cleaning）

定义
- 1. 缺省值
- 2. 噪声
实际过程

定义

现实世界的数据一般是不完整的，有噪声的和不一致的，数据清洗试图填充缺失的值，光滑噪声并识别离群点，纠正数据中的不一致

所以根据定义，主要有两种值需要进行数据清洗：

1. 缺省值

可以使用回归，贝叶斯或者决策树，通过已有数据建立模型，推测出缺省处的值，然后填充数据，但是这种方法存在过度拟合（可见我的另一篇博客介绍）的问题。

2. 噪声

面对噪点，我们主要有三种技术可以处理：
一种是采用分箱技术（binning），通过考察数据与其附近的值，来使有序数据值变得光滑。比如用箱中数据的中位数替换箱中每一个数据的值，此过程跟离散化（可见我的另一篇博客介绍）十分相近。
第二种是采用回归，我们不使用确切的值，而使用它们拟合的函数来表达数据，以此光滑数据。
第三种是通过聚类，例如运用密度聚类，孤立出簇外点，这些点就是噪点。

实际过程

1. 偏差检测（disrepancy detection）

导致偏差的因素有多种，包括输入数据的错误，数据退化（out of date），数据表示的不恰当等。
在具体实施中，可以自己找寻数据规律写程序，也可以根据不同的数据类型使用已有的工具。
防止偏差注意事项：
数据表示统一，避免字段过载，保证数据唯一性，避免空值。

2.数据变换

即替换数据值。
已有许多开元工具面对不一样的数据类型可以使用。

3.迭代执行步骤1和2

以上就是数据清洗的基本信息，妹有别的了QAQ

听说这是苹果头

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
数据清洗（data cleaning）

大数据数据清洗（data cleaning）定义1. 缺省值2. 噪声实际过程1. 偏差检测（disrepancy detection）2.数据变换3.迭代执行步骤1和2定义现实世界的数据一般是不完整的，有噪声的和不一致的，数据清洗试图填充缺失的值，光滑噪声并识别离群点，纠正数据中的不一致所以根据定义，主要有两种值需要进行数据清洗：1. 缺省值可以使用回归，贝叶斯或者决策树，通过已有数据...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。