pyspark--groupby条件分组

囊萤映雪的萤

于 2020-08-15 13:10:06 发布

阅读量2.9k

点赞数 1

分类专栏：大数据 pyspark 文章标签：大数据 spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuyingying0418/article/details/108021220

版权

大数据同时被 2 个专栏收录

21 篇文章

订阅专栏

12 篇文章

订阅专栏

本文详细介绍如何使用PySpark对数据进行条件分组，通过实例演示了如何根据分数判断及格与不及格，并统计各组人数。适用于大数据处理场景，展示了PySpark在数据筛选与分析方面的强大能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一些情况下，我们需要将数据按照某种条件划分，一部分满足条件的进行分析，另一部分不满足条件的划分为另一组进行分析。

假设我们有如下数据：

from pyspark.sql import Row, functions as F

col_names = ["name", "score"]
value = [
    ("Red", 100.0),
    ("Origen", 80.0),
    ("Yellow", 55.0),
    ("Green", 90.0),
    ("Cyan", 85.0),
    ("Blue", 50.0),
    ("Purple", 70.0),
]
df = spark.createDataFrame(value, col_names)

现在需要对数据按照score进行划分，大于等于60分的记为及格，其余的记为不及格，统计及格和不及格人数。那么就需要在分组的时候依据score是否大于60的条件划分。代码如下：

df.groupBy((F.when(F.col("score")>=60,"pass").otherwise("flunk")).alias("result")).agg(F.count('*').alias("cnt")).show()

使用when条件语句进行判断，当score大于等于60时，分组记为"pass"，否则就记为"flunk"，并将该列重命名为"result"。聚合过程中使用count计数即可。结果如下：

+------+---+
|result|cnt|
+------+---+
| flunk|  2|
|  pass|  5|
+------+---+

参考链接：pyspark-dataframe-conditional-groupby

囊萤映雪的萤

博客等级

码龄10年

72
原创

624
点赞

2759
收藏

205
粉丝

关注

私信

热门文章

分类专栏

大数据 21篇
hive 2篇
doris 1篇
clickhouse 7篇
pyspark 12篇
shell 1篇
分类算法 2篇
matlab 14篇
函数 8篇
tensorflow 6篇
python 31篇
Linux学习 3篇
深度学习 4篇
错误列表 2篇
图像处理 4篇
keras 1篇
报错信息处理 2篇
工具使用问题 3篇

展开全部收起

上一篇：: pyspark--groupby同类型多列聚合

下一篇：: pyspark--groupby条件聚合

最新评论

pyspark--写入数据
囊萤映雪的萤: 是不是hive没有配置好呢，理论上hive配置好的话，spark可以直接往hive写数据的，不需要账户密码。文中写hive数据的方式可以先不建表，会自动建表的，不过实际生产中还是建议手动建表，然后用insert方式写入数据
pyspark--写入数据
做个有脑子的人: 博主为什么我的代码可以运行但是写入的数据在spark的临时文件夹中，让MySQL中也有数据但是就是hive中没有，我的hive里面是空的要不要先把相关database和table创建好？，要不要再hive中创建用户呢 df.write.mode("overwrite").\ format("jdbc").\ option("url",'jdbc:mysql://hadoop01:3306/testDB?useSSL=false&useUnicode=true&characterEncoding=UTF-8').\ option('dbtable','airdata').\ option('user','hive').\ option('password','123').\ option('encoding','utf-8').\ save() df.write.mode('overwrite').saveAsTable("airdata",'parquet') 我这个代码里面填写的是mysql里面创建的user和password
win10系统使用tdm-gcc作为matlab2016b编译器
城之鼠: 请问一下，再次mex-setup是什么意思？
matlab--交叉验证函数crossvalind
柏田尼乐: 标签被打为10份的依据是什么啊，假如说价差验证次数我设置为5，那么数据就会被打包为5份，这样设置是不是也会有不是同类数据的被误打为同一标签呢
硕士研究生毕业论文书写格式总结
m0_73941993: 请问这个mtdisplayequation样式word中没有是怎么办呢

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。