数据中台之SQL数据清洗

目录

前言

数据清洗的准则

使用 SQL 对预测数据集进行清洗

检查完整性

检查全面性

对清洗之后的数据进行可视化


前言

SQL 可以帮我们进行数据处理,总的来说可以分成 OLTP 和 OLAP 两种方式。

OLTP 称之为联机事务处理,我们之前讲解的对数据进行增删改查,SQL 查询优化,事务处理等就属于 OLTP 的范畴。它对实时性要求高,需要将用户的数据有效地存储到数据库中,同时有时候针对互联网应用的需求,我们还需要设置数据库的主从架构保证数据库的高并发和高可用性。

OLAP 称之为联机分析处理,它是对已经存储在数据库中的数据进行分析,帮我们得出报表,指导业务。它对数据的实时性要求不高,但数据量往往很大,存储在数据库(数据仓库)中的数据可能还存在数据质量的问题,比如数据重复、数据中有缺失值,或者单位不统一等,因此在进行数据分析之前,首要任务就是对收集的数据进行清洗,从而保证数据质量。

对于数据分析工作来说,好的数据质量才是至关重要的,它决定了后期数据分析和挖掘的结果上限。数据挖掘模型选择得再好,也只能最大化地将数据特征挖掘出来。

高质量的数据清洗,才有高质量的数据。今天我们就来看下,如何用 SQL 对数据进行清洗。

  1. 想要进行数据清洗有怎样的准则呢?
  2. 如何使用 SQL 对数据进行清洗?
  3. 如何对清洗之后的数据进行可视化?

数据清洗的准则

一般而言,数据集或多或少地会存在数据质量问题。这里我们使用泰坦尼克号乘客生存预测数据集,你可以从

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
在Hive SQL中进行数据清洗可以通过多种方式实现。以下是几种常用的方法: 1. 使用内置函数:Hive提供了许多内置函数,可以用于处理和清洗数据。例如,你可以使用trim函数去掉字符串两端的空格,使用lower函数将字符串转换为小写,使用regexp_replace函数替换字符串中的特定字符等等。这些函数可以根据具体的需求进行组合使用,以完成数据清洗的任务。 2. 使用正则表达式(regexp):Hive支持使用正则表达式对数据进行匹配和替换。你可以使用regexp_extract函数从字符串中提取特定的模式,也可以使用regexp_replace函数替换字符串中的特定字符。这些正则表达式函数可以帮助你清理和转换数据,使其符合你的需求。 3. 使用条件语句(CASE):Hive SQL中的CASE语句可以根据条件对数据进行判断和处理。你可以使用CASE语句根据特定的条件对数据进行过滤、替换或转换。例如,你可以使用CASE语句将某个列中的特定值替换为其他值,或者根据某个条件将数据分类为不同的组别。 4. 使用自定义函数(UDF):如果内置函数和正则表达式无法满足你的需求,你可以自定义函数来进行数据清洗。Hive允许你编写自定义函数(UDF)来扩展其功能。通过编写自定义函数,你可以根据具体的需求实现更复杂的数据清洗逻辑。 总结起来,通过使用内置函数、正则表达式、条件语句和自定义函数,你可以在Hive SQL中实现数据清洗。这些方法可以根据不同的需求进行组合和调整,以达到清洗数据的目的。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据与算法架构提升之路

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值