pyspark 条件,使用pyspark进行条件聚合

最新推荐文章于 2023-03-14 22:28:36 发布

阿尔斯愣

最新推荐文章于 2023-03-14 22:28:36 发布

阅读量186

点赞数

文章标签： pyspark 条件

consider the below as the dataframe

a b c d e

africa 123 1 10 121.2

africa 123 1 10 321.98

africa 123 2 12 43.92

africa 124 2 12 43.92

usa 121 1 12 825.32

usa 121 1 12 89.78

usa 123 2 10 32.24

usa 123 5 21 43.92

canada 132 2 13 63.21

canada 132 2 13 89.23

canada 132 3 21 85.32

canada 131 3 10 43.92

now I want to convert the below case statement to equivalent statement in PYSPARK using dataframes.

we can directly use this in case statement using hivecontex/sqlcontest nut looking for the traditional pyspark nql query

select

case

when c <=10 then sum(e)

when c between 10 and 20 then avg(e)

else 0.00 end

from table

group by a,b,c,d

Regards

Anvesh

解决方案

You can translate your SQL code directly into DataFrame primitives:

from pyspark.sql.functions import when, sum, avg, col

(df

.groupBy("a", "b", "c", "d") # group by a,b,c,d

.agg( # select

when(col("c") < 10, sum("e")) # when c <=10 then sum(e)

.when(col("c").between(10 ,20), avg("c")) # when c between 10 and 20 then avg(e)

.otherwise(0)) # else 0.00

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

阿尔斯愣

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

spark的translate和action

fly1056601582的博客

07-05

605

spark的translate和action 之前对spark的一直进行学习和操作，最近准备系统的学习一下的。对于translate和action有一定了解，但是不是很全面。所以在这篇博客中整理一下的。 translate 对于一个rdd的操作函数名目的示例结果备注 map() 将函数应用于RDD中的每个元素，将返回值构成新的RDD...

pyspark 条件_pyspark 日常整理

weixin_36012968的博客

12-23

768

1 联表df1.join(df2，连接条件，连接方式)如：df1.join(df2,[df1.a==df2.a], "inner").show()连接方式：字符串类型，如 "left" ，常用的有：inner, cross, outer, full, full_outer, left, left_outer, right, right_outer; 默认是 inner连接条件： df1...

参与评论您还未登录，请先登录后发表或查看评论

pyspark 条件_使用pyspark进行条件聚合

weixin_29876887的博客

12-23

253

consider the below as the dataframea b c d eafrica 123 1 10 121.2africa 123 1 10 321.98africa 123 2 12 43.92africa 124 2 12 43.92usa 121 1 12 825.32usa 121 1 1...

Spark之pyspark转换函数

TSzero的博客

03-12

494

本文列举5个常见的RDD转换操作：操作含义 filter(func) 筛选出满足函数func的元素，并返回一个新的数据集 map(func) 将每个元素传递到函数func中，并将结果返回一个新的数据集 flatMap(func) 与map类似，但每个输入元素都可以映射到0个或多个输出结果 groupByKey() 应用于(K, V)键值对的数据集时，返回一个新的(K, Iterable)形式的数据集 reduceByKey(func) 应用于(K, V

用pyspark的方式写count(case when)

YouAreLion的博客

09-04

3772

import pyspark.sql.functions as fn ff = lambda cond: fn.countDistinct(fn.when(cond,df['s_id']).otherwise(None) cond = (df['class_status']=='FINISHED') & (df['finish_type']=='AS_SCHEDULED') df.gro...

Spark之CASE...WHEN...THEN...的两种实现方式

山阴少年

11-01

2万+

在Spark中，dataframe是常用的数据格式，类似于数据库中的表。本文将介绍如何在dataframe中实现CASE…WHEN…THEN的两种方法。

pyspark 条件_使用 pySpark 进行数据探索分析

weixin_33483304的博客

01-08

760

Photo by SpaceX on Unsplash每个数据分析师都应该熟悉的重要主题之一是分布式数据处理技术(例如Spark)。作为数据分析师，需要对数据集应用不同的查询，以从数据集中提取有用的信息。但是，如果您的数据很庞大以至于无法在本地计算机上使用它，该怎么办？使用分布式数据处理和Spark技术将很方便解决这个问题。Apache Spark是用于大数据处理的快速通用引擎，它具...

pyspark 小知识——自定义聚合函数UDAF：使用pyspark分组计算AUC

lanyuelvyun的博客

10-23

5724

在pyspark中，自定义聚合函数UDAF，在实现上有些困难，但是我们可以用另外一种方法实现同样的功能：利用自定义函数UDF，实现自定义聚合函数UDAF的功能。

pyspark的dataframe的单条件、多条件groupBy用法agg

热门推荐

weixin_42864239的博客

07-02

2万+

pyspark groupBy方法中用到的知识点智能搜索引擎实战中用到的pyspark知识点总结sum和udf方法计算平均得分avg方法计算平均得分count方法计算资源个数collect_list() 将groupBy 的数据处理成列表max取最大值min取最小值多条件groupBy求和sum 智能搜索引擎实战中用到的pyspark知识点总结项目中，先配置了spark，通过spark对象连...

PySpark RDD 的使用

wodlx_的博客

03-14

634

PySpark RDD 的使用文章目录PySpark RDD 的使用1.1 RDD的创建1.2 RDD算子1.3 常用Transformation算子map算子\textcolor{CornflowerBlue}{map算子}map算子flatMap算子\textcolor{CornflowerBlue}{flatMap算子}flatMap算子reduceByKey算子\textcolor{CornflowerBlue}{reduceByKey算子}reduceByKey算子mapValues算子\tex

PySpark-Boilerplate:编写PySpark作业的样板

05-17

- **数据处理**: 应用map、filter、reduce等转换操作，进行数据清洗、转换和聚合。 - **保存结果**: 将处理后的数据写回磁盘、数据库或其他存储系统。 - **结束SparkSession**: 作业完成后，记得关闭SparkSession以...

Learning PySpark

11-14

通过PySpark的SQL模块，读者可以学习如何定义数据模式，执行SQL查询，以及使用DataFrame API进行数据清洗、转换和聚合操作。此外，本书还会介绍DataFrame与Spark SQL之间的桥梁——SparkSession，它是Spark 2.0引入...

Spark之正则表达式与处理日期与时间类型

柳小葱的博客

05-27

3363

????今天继续给大家介绍pyspark的内容之匹配字符和处理时间类型的数据，我们在前面还给大家介绍了spark处理其他类型数据的方法，有兴趣的小伙伴可以查看下面文章????：链接: Spark之处理布尔、数值和字符串类型的数据. 链接: Spark之Dataframe基本操作. ????今天主要来学习spark在字符串中搜索子串，替换被选中的字符等，以及处理时间类型数据的方法，尤其是对时间序列的处理在后面机器学习的部分有很大的帮助。目录1.正则表达式1.1 regexp_replace 替换值1.

pyspark基础操作

小猪课堂的博客

08-08

1131

最近在公司经常会用到一些spark,一般都是使用python进行处理,一开始使用还是有点陌生,看了几篇往上的文章也简单的操作了几天,通过写这篇文章再去巩固一下基础知识~持续更新提示(tips) 这里要说一下spark中每一个环节都是分开的; spark函数使用的是驼峰命名法; 代码写在一行上,如果过长换行必须有"",否则会报错(此坑已踩!!); 基础查询 select where ->> where/filter group by ->> groupby case when 函

pyspark系列--datafrane进阶

振裕

03-23

5388

datafrane进阶 1. 分组统计 2. join 操作 3. 缺失值处理 4. 空值判断 5. 缺失值处理 6. 离群点 7. 重复值 8. 生成新列 9. 类eval操作 10. 行的最大最小值 11. when操作 12. lag,lead平移 1. 分组统计分组统计应该是用的最多的方法了，比如分地区求平均值，最大最小值等。 # 分组计算1 color_df...

Spark sql中的case when else

hbbg123456789的专栏

12-12

3014

val dataSeq = sql("SELECT if(os.status_pay=1,1,0) " + " FROM OrderShopModel os ") .collect().foreach(println) Spark Sql因为支持Hive的UDF，所以往往复杂的SQL可以写成很简单的方式实现。if(os.status_pay=1,1,0) 等价于 case os.stat

考研复习-英语二真题考试题集-带答案