BD第4课:数据清洗

数据清洗是数据分析的重要步骤,涉及残缺数据处理、错误数据修正、重复数据删除和数据格式统一。本文以天猫和京东的胸罩销售数据为例,详细解释了如何清洗颜色和尺寸数据,通过SQL语句实现数据规范化,确保数据质量。
摘要由CSDN通过智能技术生成

如果说抓取数据是数据分析的第1步,那么数据清洗就是数据分析的第2步,那么为什么要进行数据清洗呢?如何进行数据清洗呢?本文会先简单介绍一下什么是数据清洗,然后会对我们抓取的天猫商城和京东商城胸罩销售数据进行数据清洗。

数据清洗是指发现并纠正数据中可识别的错误或让数据更加规范的最后一道程序,包括检查数据一致性,处理无效值和缺失值,以及统一数据格式、转换数据格式等。与网上阅卷审核不同,数据清洗一般是由计算机程序而不是人工完成。

数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,还有的数据的格式不是我们想要的,这些数据统称为“脏数据”,我们要按照一定的规则把“脏数据”洗掉,这就是数据清洗,而数据清洗的任务是过滤和处理那些不符合要求的数据,最后将处理结果交给下一个工序:数据分析。

下面看一下数据清洗的主要类型。

(1)残缺数据

这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入对应的数据库字段或文件即可。

(2)错误数据

这一类错误产生的原因是抓取数据后没有进行判断直接写入后台数据库造成的,比如数值数据变成全角数字字符、字符串数据后面有一个回车操作、日期格式不正确、日期越界等。这一类数据也要分类,

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值