用pyspark的方式写count(case when)

最新推荐文章于 2024-06-11 22:29:27 发布

泥鳅812

最新推荐文章于 2024-06-11 22:29:27 发布

阅读量3.7k

点赞数

分类专栏： DB python tip

本文链接：https://blog.csdn.net/sinat_20174131/article/details/100540667

版权

python 同时被 3 个专栏收录

77 篇文章 0 订阅

订阅专栏

tip

48 篇文章 0 订阅

订阅专栏

28 篇文章 0 订阅

订阅专栏

import pyspark.sql.functions as fn

ff = lambda cond: fn.countDistinct(fn.when(cond,df['s_id']).otherwise(None))
cond = (df['class_status']=='FINISHED') & (df['finish_type']=='AS_SCHEDULED')
df.groupby('req_date').agg(ff(cond)).orderBy('req_date').show()

#output:
+----------+--------------------------------------------------------------------------------------------------------------+
|  req_date|count(DISTINCT CASE WHEN ((class_status = FINISHED) AND (finish_type = AS_SCHEDULED)) THEN s_id ELSE NULL END)|
+----------+--------------------------------------------------------------------------------------------------------------+
|2019-08-02|                                                                                                          5489|
|2019-08-03|                                                                                                          5545|
|2019-08-04|                                                                                                          4822|
|2019-08-05|                                                                                                          3774|
|2019-08-06|                                                                                                          4798|
|2019-08-07|                                                                                                          4562|
|2019-08-08|                                                                                                          4609|
|2019-08-09|                                                                                                          4646|
|2019-08-10|                                                                                                          4290|
|2019-08-11|                                                                                                          3554|
|2019-08-12|                                                                                                           649|
|2019-08-13|                                                                                                          4142|
|2019-08-14|                                                                                                          4138|
|2019-08-15|                                                                                                          1930|
+----------+--------------------------------------------------------------------------------------------------------------+

泥鳅812

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
用pyspark的方式写count(case when)

import pyspark.sql.functions as fnff = lambda cond: fn.countDistinct(fn.when(cond,df['s_id']).otherwise(None)cond = (df['class_status']=='FINISHED') & (df['finish_type']=='AS_SCHEDULED')df.gro...
复制链接

扫一扫

专栏目录