spark 把一列数据合并_spark DataFrame数据集计算案例(聚合分组排序统计合并)

最新推荐文章于 2022-09-09 20:14:22 发布

weixin_39660408

最新推荐文章于 2022-09-09 20:14:22 发布

阅读量865

点赞数

文章标签： spark 把一列数据合并

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39660408/article/details/111485662

版权

本文介绍了如何使用Spark DataFrame进行数据计算，包括聚合、分组、排序、统计和合并操作。通过实例展示了如何根据现有列创建新列、分组统计字段、按条件合并表以及进行排序等常见数据处理任务。

摘要由CSDN通过智能技术生成

spark的数据集，无论rdd,dataframe,dataset都能用自带的api函数来方便的进行数据计算，包括聚合分组排序统计新增列连接合并表等第，而不需要自己取实现怎么计算，或者自己写sql。

记录下各种需求下的计算代码，前提条件是搭建好集群，先引入下面的代码import org.apache.spark.sql._

import org.apache.spark.sql.functions._

import spark.sqlContext.implicits._ //代码中间引入

//根据现有列计算添加新列(这里举例两个字段相除添加得到新一列)

Df.withColumn("newColumn",$"column1"/$"column2")

//根据现有列按条件计算添加新列

Df.withColumn("is_true",when($"c1"/$"c2" >=0.8,1).otherwise(0))

//分组统计字段值总数

Df.groupBy("STUDENT_ID").agg(sum("score").as("total_score"))

//分组统计字段值出现的次数

Df.groupBy("STUDENT_ID").agg(count(when($"grade_level" ==="A",1).otherwise(0)).as("countA"))

//按字段合并表左连接

Df=Df.join( Df1, "STUDENT_ID" )

//按多个字段合并表左连接

最低0.47元/天解锁文章

weixin_39660408

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark 把一列数据合并_spark DataFrame数据集计算案例(聚合分组排序统计合并)

spark的数据集，无论rdd,dataframe,dataset都能用自带的api函数来方便的进行数据计算，包括聚合分组排序统计新增列连接合并表等第，而不需要自己取实现怎么计算，或者自己写sql。记录下各种需求下的计算代码，前提条件是搭建好集群，先引入下面的代码importorg.apache.spark.sql._importorg.apache.spark.sql.functi...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。