【Pyspark-驯化】一文搞懂Pyspark中对空值的处理dropna函数的使用技巧

算法驯化师

于 2024-08-08 13:36:25 发布

阅读量766

点赞数 30

分类专栏： pyspark 大数据文章标签： spark 大数据分布式 pyspark

本文链接：https://blog.csdn.net/lov1993/article/details/141024601

版权

pyspark 同时被 2 个专栏收录

12 篇文章

订阅专栏

大数据

11 篇文章

订阅专栏

【Pyspark-驯化】一文搞懂Pyspark中对空值的处理dropna函数的使用技巧

本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合，智慧小天地！
🎇 相关内容文档获取微信公众号
🎇 相关内容视频讲解 B站

🎓 博主简介：AI算法驯化师，混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+，熟练掌握机器、深度学习等各类应用算法原理和项目实战经验。

🔧 技术专长：在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务，助力多位小伙伴在学习、求职、工作上少走弯路、提高效率，近一年好评率100% 。

📝 博客风采：积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

🌵文章目录🌵

下滑查看解决方法

🎯 1.基本介绍

在数据分析和机器学习中，处理缺失数据是一项常见且重要的任务。PySpark提供了dropna方法，它允许用户从DataFrame中删除包含缺失值的行或列，从而简化数据集并提高模型的性能。

💡 2. 代码用法

2.1 初始化spark环境

对于pyspark来讲，常用的就是sparkcontext类，一般都是先启动一个这样的程序才可以进行相应的操作，而SparkSession可以在不创建SparkConf，SparkContext或SQLContext的情况下创建SparkSession（它们封装在SparkSession中），这个sparksession就是用来调取dataframe相关操作的类，具体的操作如下：

    # 一般在进行spark-submit的.py文件在初始化的时候，需要创建spark对象，具体如下
    from pyspark import SparkConf
    from pyspark import SparkContext
    from pyspark.sql import SparkSession
    from pyspark.sql import SQLContext
    from pyspark.sql import Row
    from pyspark.sql.types import StructType
    from pyspark.sql.types import StructField
    from pyspark.sql.types import StringType
    from pyspark.sql import functions as fn
    from pyspark.sql import types as T
    sc_conf = SparkConf().setAppName('b2b_fraud_data')
    spark = SparkSession.builder.config(conf=sc_conf).enableHiveSupport().getOrCreate()

而对于上述的两个class来说，经常对创建相关的临时表，createOrReplaceTempView：创建临时视图，此视图的生命周期与用于创建此数据集的[SparkSession]相关联。
createGlobalTempView：创建全局临时视图，此时图的生命周期与Spark Application绑定。如果想要删除的话就得使用spark.catalog.dropGlobalTempView(“tempViewName”)

2.2 创建DataFrame

为了更加清楚的理解withcolumnsrename函数的中间结果，具体我们创建如下的数据对其进行操作，具体代码如下所示：

from pyspark.sql import Row

# 创建一个包含缺失值的数据集
data = [Row(id=1, name="Alice", age=None), 
        Row(id=2, name="Bob", age=30),
        Row(id=3, name=None, age=25)]
df = spark.createDataFrame(data)
df.show()

+---+----+---+
| id|name|age|
+---+----+---+
|  1|Alice|null
|  2|  Bob|30|
|  3|null|25|

2.3 删除包含缺失值的行

通过函数对dataframe的列名进行空值的数据删除，具体的代码如下所示：

# 删除包含缺失值的行
df_dropped_rows = df.dropna()

# 显示结果
df_dropped_rows.show()

+---+----+---+
| id|name|age|
+---+----+---+
|  2|  Bob|30|

2.4 删除包含缺失值的列

通过函数对dataframe的列名进行空值的数据删除，具体的代码如下所示：

# 删除包含缺失值的列
df_dropped_columns = df.dropna(how='any', axis=1)

# 显示结果
df_dropped_columns.show()

+---+----+
| id|name|
+---+----+
|  1|Alice|
|  2|  Bob|
|  3| null|

💡 3. 高级用法

3.1 指定删除条件

dropna方法提供了how和axis参数，允许用户根据特定条件删除行或列。

how参数：'any’表示只要列或行中有空值就删除，'all’表示只有当列或行全部为空时才删除。
axis参数：0表示操作列，1表示操作行。

# 删除所有值都为空的列
df_dropped_columns_all = df.dropna(how='all', axis=1)
df_dropped_columns_all.show()

+---+----+---+
| id|name|age|
+---+----+---+
|  1|Alice|null
|  2|  Bob|30|
|  3|null|25|

但是在进行多个链式调用时，需要重新赋值给新的变量名，不然的话会出现相关修改不成功的问题

💡 4. 注意事项

w使用dropna时，需要考虑数据集中缺失值的比例，避免删除过多数据。
在某些情况下，填充缺失值（使用fillna）可能是一个更好的选择。
dropna默认删除包含至少一个缺失值的行，可以通过参数调整删除行为。

💡 5. 总结

withColumnRenamed是PySpark中一个非常实用的功能，它允许用户轻松地重命名DataFrame中的列。通过本博客的代码示例，我们学习了如何使用withColumnRenamed进行单个列和多个列的重命名操作，以及如何将其与其他DataFrame操作结合使用。希望这篇博客能够帮助你更好地理解withColumnRenamed的用法，并将其应用于数据处理任务中。