大数据数据清洗(data cleaning)
定义
现实世界的数据一般是不完整的,有噪声的和不一致的,数据清洗试图填充缺失的值,光滑噪声并识别离群点,纠正数据中的不一致
所以根据定义,主要有两种值需要进行数据清洗:
1. 缺省值
可以使用回归,贝叶斯或者决策树,通过已有数据建立模型,推测出缺省处的值,然后填充数据,但是这种方法存在过度拟合(可见我的另一篇博客介绍)的问题。
2. 噪声
面对噪点,我们主要有三种技术可以处理:
一种是采用分箱技术(binning),通过考察数据与其附近的值,来使有序数据值变得光滑。 比如用箱中数据的中位数替换箱中每一个数据的值,此过程跟离散化(可见我的另一篇博客介绍)十分相近。
第二种是采用回归,我们不使用确切的值,而使用它们拟合的函数来表达数据,以此光滑数据。
第三种是通过聚类,例如运用密度聚类,孤立出簇外点,这些点就是噪点。
实际过程
1. 偏差检测(disrepancy detection)
导致偏差的因素有多种,包括输入数据的错误,数据退化(out of date),数据表示的不恰当等。
在具体实施中,可以自己找寻数据规律写程序,也可以根据不同的数据类型使用已有的工具。
防止偏差注意事项:
数据表示统一,避免字段过载,保证数据唯一性,避免空值。
2.数据变换
即替换数据值。
已有许多开元工具面对不一样的数据类型可以使用。
3.迭代执行步骤1和2
以上就是数据清洗的基本信息,妹有别的了QAQ