【Pyspark-驯化】一文搞懂Pyspark中过滤数据when和otherwise函数的使用技巧

【Pyspark-驯化】一文搞懂Pyspark中过滤数据when和otherwise函数的使用技巧
 
本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 相关内容文档获取 微信公众号
🎇 相关内容视频讲解 B站

🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验

🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100%

📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 


下滑查看解决方法

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  

🎯 1.基本介绍

  在PySpark中,when和otherwise是pyspark.sql.functions模块中的函数,它们通常一起使用来实现条件数据转换。这种用法类似于传统编程语言中的if-else语句,允许用户根据条件创建新列或转换现有列的值。

💡 2. 代码用法

2.1 初始化spark环境

  对于pyspark来讲,常用的就是sparkcontext类,一般都是先启动一个这样的程序才可以进行相应的操作,而SparkSession可以在不创建SparkConf,SparkContext或SQLContext的情况下创建SparkSession(它们封装在SparkSession中), 这个sparksession就是用来调取dataframe相关操作的类,具体的操作如下:

    # 一般在进行spark-submit的.py文件在初始化的时候,需要创建spark对象,具体如下
    from pyspark import SparkConf
    from pyspark import SparkContext
    from pyspark.sql import SparkSession
    from pyspark.sql import SQLContext
    from pyspark.sql import Row
    from pyspark.sql.types import StructType
    from pyspark.sql.types import StructField
    from pyspark.sql.types import StringType
    from pyspark.sql import functions as fn
    from pyspark.sql import types as T
    sc_conf = SparkConf().setAppName('b2b_fraud_data')
    spark = SparkSession.builder.config(conf=sc_conf).enableHiveSupport().getOrCreate()

  • 而对于上述的两个class来说,经常对创建相关的临时表,createOrReplaceTempView:创建临时视图,此视图的生命周期与用于创建此数据集的[SparkSession]相关联。
    createGlobalTempView:创建全局临时视图,此时图的生命周期与Spark Application绑定。如果想要删除的话就得使用spark.catalog.dropGlobalTempView(“tempViewName”)

2.2 创建DataFrame

  为了更加清楚的理解withcolumnsrename函数的中间结果,具体我们创建如下的数据对其进行操作,具体代码如下所示:

from pyspark.sql import Row

# 创建一个简单的数据集
data = [Row(id=1, name="Alice", age=25),
        Row(id=2, name="Bob", age=30),
        Row(id=3, name="Charlie", age=22)]
df = spark.createDataFrame(data)
df.show()


+---+-----+---+
| id| name|age|
+---+-----+---+
|  1|Alice| 25|
|  2|  Bob| 30|
|  3|Charlie| 22|

2.3 使用when和otherwise进行条件数据转换

  创建一个新列,根据年龄判断是否为成年人,具体的代码如下所示:

# 删除重复的行
# 创建一个新列,根据年龄判断是否为成年人
df_with_adult_column = df.withColumn("is_adult", when(df.age >= 18, "Adult").otherwise("Not Adult"))
df_with_adult_column.show()


+---+-----+---+---------+
| id| name|age|is_adult|
+---+-----+---+---------+
|  1|Alice| 25|   Adult|
|  2|  Bob| 30|   Adult|
|  3|Charlie| 22|Not Adult|

💡 3. 高级用法

3.1 嵌套使用when和otherwise

  根据年龄创建更详细的年龄组标签,具体的操作代码如下所示:

# 根据年龄创建更详细的年龄组标签
df_with_age_group = df.withColumn("age_group", 
                                  when(df.age >= 18, "Adult")
                                  .when(df.age >= 65, "Senior")
                                  .otherwise("Child"))
df_with_age_group.show()

+---+-----+---+---------+
| id| name|age|age_group|
+---+-----+---+---------+
|  1|Alice| 25|   Adult|
|  2|  Bob| 30|   Adult|
|  3|Charlie| 22|   Adult|

3.2 结合多个条件

  根据年龄和性别创建不同的标签,具体的操作代码如下所示:

# 根据年龄创建更详细的年龄组标签
# 根据年龄和性别创建不同的标签
df_with_custom_label = df.withColumn("custom_label", 
                                     when((df.age >= 18) & (df.name == "Alice"), "Adult Alice")
                                     .when((df.age >= 65), "Senior")
                                     .otherwise("General"))
df_with_custom_label.show()


+---+-----+---+-----------+
| id| name|age|custom_label|
+---+-----+---+-----------+
|  1|Alice| 25|  Adult Alice|
|  2|  Bob| 30|       General|
|  3|Charlie| 22|       General|

💡 4. 注意事项

  • when和otherwise是惰性求值的,只有在遇到行动操作(如show、collect)时才会执行计算。
  • 使用when和otherwise时,建议按照逻辑顺序书写条件,以提高代码的可读性。
  • 确保为所有可能的条件提供处理方式,避免遗漏。

💡 5. 总结

  when和otherwise在PySpark中提供了一种灵活的条件数据转换方式,类似于编程中的if-else语句。通过本博客的代码示例,我们学习了如何使用这两个函数进行条件数据转换,包括嵌套使用和结合多个条件。希望这篇博客能够帮助你更好地理解when和otherwise的用法,并将其应用于数据处理任务中。

  • 26
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

算法驯化师

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值