大数据的处理之数据清洗

本文介绍了大数据处理中的数据清洗过程,重点讲述了在Oracle数据库中如何进行数据清洗,包括处理不完整数据、去除不需要的字段、格式内容清洗、逻辑错误清洗和重复数据。通过实例展示了创建测试表、清洗配置表及存储过程来执行数据清洗操作。
摘要由CSDN通过智能技术生成

学习目标:

1.学会查找脏数据
2.学会清洗数据

学习内容:

1.脏数据”的脏数据的定义和判断标准
2.在oracle 数据库里清洗数据

学习时间:

有oracle 基础的话,学习6个小时

学习产出:

1.技术笔记1篇
2.数据清洗的相关代码

ETL数据清洗

数据清洗(Data Cleaning)原理即通过分析“脏数据”的产生原因和存在形式,利用现有的技术手段和方法去清洗“脏数据”,将原有的不符合要求的数据转化为满足数据质量或应用要求的数据,从而提高数据集的数据质量。

数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。

1.不完整的数据:这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。

2去除不需要的字段:对某些字段内容,数据分析过程可能用不上,就需要将其删除。
3.格式内容

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数字天下

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值