SparkSQL异常数据清洗API

最新推荐文章于 2024-07-19 16:04:56 发布

小蜜蜂爱编程

最新推荐文章于 2024-07-19 16:04:56 发布

阅读量588

点赞数 21

分类专栏：大数据文章标签： spark 大数据分布式

本文链接：https://blog.csdn.net/qq_42936727/article/details/137124443

版权

大数据专栏收录该内容

24 篇文章 0 订阅

订阅专栏

本文详细阐述了SparkSQL中的数据清洗工具，包括去重、处理缺失值的方法，适用于大数据预处理。

摘要由CSDN通过智能技术生成

SparkSQL数据清洗API

但是在大数据整个生产过程中，需要先对数据进行数据清洗，将杂乱无章的数据整理为符合后面处理要求的规整数据，spark提供了一些api方便我们进行数据清洗

1. 去重方法dropDuplicates()

功能：对DF的数据进行去重，如果重复数据有多条，取第一条

去重API dropDuplicates,无参数时是对数据进行整体去重
df.dropDuplicate().show()
API同样可以针对字段进行去重，如下传入age字段，表示只要年龄一样就认为你是重复数据，传入age和job表示结合年龄和job来去重
df.dropDuplicates([‘age’, ‘job’]).show()

2. 缺失值处理dropna()

def dropna(self,how=‘any’,thresh=None,subset=None):
返回的市一个没有(指定)空值的dataFrame
param how:'any’or ‘all’，如果参数为any（默认any），那么只要df一行包含空值，就会被去除，如果是all,只会把一行都为空的去除。
param thresh:int,default None
表示这一行的数据有效的（非空）的数据必须达到该参数设定的阈值，如果没达到，那么就删除该行数据
param subset:指定列对缺失值判断，该列缺失则删除该行数据

需要注意的是，如果我们结合thres和subset，意义并不是二者的叠加，而是在指定的subset中，列数要达到thres阈值，而不是任意的列数非空达到阈值和保存subset指定的列
df.dropna(thres=2, [‘name’, ‘age’])
标识’name’和’age’列至少两列都不为空才保留

3. 缺失值填充fillna()

如果不指定列，默认把所有空值都填充为指定数据
df.fillna(“N/A”)
如果指定列，则填充指定列的空值
df.fillna(“N/A”, subset=[‘job’])
想要指定多个列不同的填充内容，可以定义一个字典，根据字典对应的值来填充
df.fillna({“name”: “N/A”, “age”: 0})

小蜜蜂爱编程

关注

21
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
SparkSQL异常数据清洗API

需要注意的是，如果我们结合thres和subset，意义并不是二者的叠加，而是在指定的subset中，列数要达到thres阈值，而不是任意的列数非空达到阈值和保存subset指定的列。param how:'any’or ‘all’，如果参数为any（默认any），那么只要df一行包含空值，就会被去除，如果是all,只会把一行都为空的去除。表示这一行的数据有效的（非空）的数据必须达到该参数设定的阈值，如果没达到，那么就删除该行数据。功能：对DF的数据进行去重，如果重复数据有多条，取第一条。
复制链接

扫一扫