如果说抓取数据是数据分析的第1步,那么数据清洗就是数据分析的第2步,那么为什么要进行数据清洗呢?如何进行数据清洗呢?本文会先简单介绍一下什么是数据清洗,然后会对我们抓取的天猫商城和京东商城胸罩销售数据进行数据清洗。
数据清洗是指发现并纠正数据中可识别的错误或让数据更加规范的最后一道程序,包括检查数据一致性,处理无效值和缺失值,以及统一数据格式、转换数据格式等。与网上阅卷审核不同,数据清洗一般是由计算机程序而不是人工完成。
数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,还有的数据的格式不是我们想要的,这些数据统称为“脏数据”,我们要按照一定的规则把“脏数据”洗掉,这就是数据清洗,而数据清洗的任务是过滤和处理那些不符合要求的数据,最后将处理结果交给下一个工序:数据分析。
下面看一下数据清洗的主要类型。
(1)残缺数据
这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入对应的数据库字段或文件即可。
(2)错误数据
这一类错误产生的原因是抓取数据后没有进行判断直接写入后台数据库造成的,比如数值数据变成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,