SparkSQL数据清洗API

最新推荐文章于 2024-06-04 18:06:31 发布

飞Link

最新推荐文章于 2024-06-04 18:06:31 发布

阅读量1.3k

点赞数

分类专栏：大数据文章标签：大数据 spark 数据仓库

本文链接：https://blog.csdn.net/feizuiku0116/article/details/121527017

版权

大数据专栏收录该内容

201 篇文章 11 订阅

订阅专栏

本文介绍了使用Pandas库在Python中处理数据时的常见操作，包括如何使用dropDuplicates方法去除数据重复项，dropna方法删除包含缺失值的行，并通过设置thresh参数和subset参数进行更精确的控制。此外，还讲解了fillna方法来填充缺失值，支持全局填充、指定列填充以及自定义规则填充。这些技巧对于数据预处理至关重要。

摘要由CSDN通过智能技术生成

一、去重方法 dropDuplicates

功能：对DF的数据进行去重，如果重复数据有多条，取第一条

# 去重API dropDuplicates,无参数是对数据进行整体去重
df.dropDuplicates().show()
# API 同样可以针对字段进行去重，如下传入age字段，表示只要年龄一样，就认为是重复数据
df.dropDuplicates(['age', 'job']).show()

二、删除有缺失值的方法 dropna

功能：如果数据中包含null，通过dropna来进行判断，符合条件就删除这一行的数据

# 如果有缺失，进行数据删除
# 无参数 为 how='any'，执行，只要有一个列是null数据整行删除，如果填入how='all'，表示全部列为空才会删除，how参数默认是any
df.dropna().show()
# 指定阈值进行删除，thresh=3表示，有效的列最少有3个，这行数据才保留
# 设定thresh后，how参数无效了
df.dropna(thresh=3).show()
# 可以指定阈值，以及配合指定列进行工作
# thresh=2,subset=['name','age']，表示针对这两个列，有效列最少为2个才保留数据
df.dropna(thresh=2,subset=['name','age']).show()

三、填充缺失值数据 fillna

功能：根据参数的规则，来进行null的替换

# 将所有的空，按照指定的值进行填充，不理会列的，任何空都被填充
df.fillna("loss").show()
# 指定列进行填充
df.fillna("loss", subset=['job']).show()
# 给定字典 设定各个列的填充规则
df.fillna({"name": "未知姓名", "age": 1, "job": "worker"}).show()

飞Link

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
SparkSQL数据清洗API

一、去重方法 dropDuplicates功能：对DF的数据进行去重，如果重复数据有多条，取第一条# 去重API dropDuplicates,无参数是对数据进行整体去重df.dropDuplicates().show()# API 同样可以针对字段进行去重，如下传入age字段，表示只要年龄一样，就认为是重复数据df.dropDuplicates(['age', 'job']).show()二、删除有缺失值的方法 dropna功能：如果数据中包含null，通过dropna来进行判
复制链接

扫一扫

专栏目录