数据清洗(data cleaning)

数据清洗是处理不完整、有噪声和不一致数据的过程,包括缺省值填充和噪声平滑。缺省值可通过回归等方法推测,但要注意过度拟合。噪声处理常用技术有分箱、回归和聚类。偏差检测涉及数据错误、退化和表示不当,数据变换则涉及替换数据值。整个过程通常需要迭代执行。
摘要由CSDN通过智能技术生成

定义

现实世界的数据一般是不完整的,有噪声的和不一致的,数据清洗试图填充缺失的值,光滑噪声并识别离群点,纠正数据中的不一致

所以根据定义,主要有两种值需要进行数据清洗:

1. 缺省值

可以使用回归,贝叶斯或者决策树,通过已有数据建立模型,推测出缺省处的值,然后填充数据,但是这种方法存在过度拟合(可见我的另一篇博客介绍)的问题。

2. 噪声

面对噪点,我们主要有三种技术可以处理:
一种是采用分箱技术(binning),通过考察数据与其附近的值,来使有序数据值变得光滑。 比如用箱中数据的中位数替换箱中每一个数据的值,此过程跟离散化(可见我的另一篇博客介绍)十分相近。
第二种是采用回归,我们不使用确切的值,而使用它们拟合的函数来表达数据,以此光滑数据。
第三种是通过聚类,例如运用密度聚类,孤立出簇外点,这些点就是噪点。

实际过程

1. 偏差检测(disrepancy detection)

导致偏差的因素有多种,包括输入数据的错误,数据退化(out of date),数据表示的不恰当等。
在具体实施中,可以自己找寻数据规律写程序,也可以根据不同的数据类型使用已有的工具。
防止偏差注意事项:
数据表示统一,避免字段过载,保证数据唯一性,避免空值。

2.数据变换

即替换数据值。
已有许多开元工具面对不一样的数据类型可以使用。

3.迭代执行步骤1和2

以上就是数据清洗的基本信息,妹有别的了QAQ

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值