SparkSQL基本教程(二)

最新推荐文章于 2024-04-24 09:57:45 发布

人海中的回忆

最新推荐文章于 2024-04-24 09:57:45 发布

阅读量243

点赞数

分类专栏： python 数据分析 spark 文章标签： spark 大数据

本文链接：https://blog.csdn.net/qq_33390476/article/details/115609388

版权

本文是SparkSQL系列教程的第二部分，主要聚焦于数据清洗，包括数据去重、缺失值处理和异常值处理，旨在将原始的杂乱数据转化为可用的规整数据。

摘要由CSDN通过智能技术生成

1 数据清洗案例

学习目标：

数据去重
缺失值处理
异常值处理

学习内容：

前面我们处理的数据实际上都是已经被处理好的规整数据，但是在大数据整个生产过程中，需要先对数据进行数据清洗，将杂乱无章的数据整理为符合后面处理要求的规整数据。

1数据去重

'''
1.删除重复数据

groupby().count()：可以看到数据的重复情况
'''
df = spark.createDataFrame([
  (1, 144.5, 5.9, 33, 'M'),
  (2, 167.2, 5.4, 45, 'M'),
  (3, 124.1, 5.2, 23, 'F'),
  (4, 144.5, 5.9, 33, 'M'),
  (5, 133.2, 5.7, 54, 'F'),
  (3, 124.1, 5.2, 23, 'F'),
  (5, 129.2, 5.3, 42, 'M'),
], ['id', 'weight', 'height', 'age', 'gender'])

# 查看重复记录
#无意义重复数据去重：数据中行与行完全重复
# 1.首先删除完全一样的记录
df1 = df.dropDuplicates()

#有意义去重：删除除去无意义字段之外的完全重复的行数据
# 2.其次，关键字段值完全一模一样的记录（在这个例子中，是指除了id之外的列一模一样）
# 删除某些字段值完全一样的重复记录，subset参数定义这些字段
df2 = df1.dropDuplicates(subset = [c for c in df2.columns if c!='id'])
# 3.有意义的重复记录去重之后，再看某个无意义字段的值是否有重复（在这个例子中，是看id是否重复）
# 查看某一列是否有重复值
import pyspark.sql.functions as fn
df2.agg(fn.count('id').alias('id_count'),fn.countDistinct('id').alias('distinct_id