spark 把一列数据合并_spark DataFrame数据集计算案例(聚合 分组 排序 统计 合并)

本文介绍了如何使用Spark DataFrame进行数据计算,包括聚合、分组、排序、统计和合并操作。通过实例展示了如何根据现有列创建新列、分组统计字段、按条件合并表以及进行排序等常见数据处理任务。
摘要由CSDN通过智能技术生成

spark的数据集,无论rdd,dataframe,dataset都能用自带的api函数来方便的进行数据计算,包括聚合 分组 排序 统计 新增列 连接合并表等第,而不需要自己取实现怎么计算,或者自己写sql。

记录下各种需求下的计算代码,前提条件是搭建好集群,先引入下面的代码import org.apache.spark.sql._

import org.apache.spark.sql.functions._

import spark.sqlContext.implicits._ //代码中间引入

//根据现有列计算添加新列(这里举例两个字段相除添加得到新一列)

Df.withColumn("newColumn",$"column1"/$"column2")

//根据现有列按条件计算添加新列

Df.withColumn("is_true",when($"c1"/$"c2" >=0.8,1).otherwise(0))

//分组统计字段值总数

Df.groupBy("STUDENT_ID").agg(sum("score").as("total_score"))

//分组统计字段值出现的次数

Df.groupBy("STUDENT_ID").agg(count(when($"grade_level" ==="A",1).otherwise(0)).as("countA"))

//按字段合并表 左连接

Df=Df.join( Df1,  "STUDENT_ID"  )

//按多个字段合并表 左连接

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值