SPARK-SQL - group分组聚合api,agg()

准备orders.json文件

{"id":"1", "userId":"1", "userName":"Join", "totalPrice":80.0,"qty":3.0}
{"id":"2", "userId":"1", "userName":"Join", "totalPrice":50.0,"qty":3.0}
{"id":"3", "userId":"2", "userName":"Jeffy", "totalPrice":200.0,"qty":3.0}
{"id":"4", "userId":"99999", "userName":"zombie", "totalPrice":222.0,"qty":3.0}

用agg来将分组函数聚合起来一起查询

示例代码

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

import java.util.HashMap;
import java.util.Map;

import static org.apache.spark.sql.functions.*;
import static org.apache.spark.sql.functions.sum;

public class test_28_2 {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .config("spark.driver.host", "localhost")
                .appName("GroupApiTest")
                .master("local")
                .getOrCreate();

        spark.sparkContext().setLogLevel("ERROR");

        Dataset<Row> ordersDataSet = spark.read().json(Utils.BASE_PATH + "/join/orders.json");
        ordersDataSet.show();
        /*
		+---+---+----------+------+--------+
		| id|qty|totalPrice|userId|userName|
		+---+---+----------+------+--------+
		|  1|3.0|      80.0|     1|    Join|
		|  2|3.0|      50.0|     1|    Join|
		|  3|3.0|     200.0|     2|   Jeffy|
		|  4|3.0|     222.0| 99999|  zombie|
		+---+---+----------+------+--------+
         */

        //2: 用agg来将分组函数聚合起来一起查询
        ordersDataSet.groupBy("userId").agg(
                avg("totalPrice"),
                max("totalPrice"),
                min("totalPrice"),
                sum("totalPrice")).show();
        /*
		+------+---------------+---------------+---------------+---------------+
		|userId|avg(totalPrice)|max(totalPrice)|min(totalPrice)|sum(totalPrice)|
		+------+---------------+---------------+---------------+---------------+
		|     1|           65.0|           80.0|           50.0|          130.0|
		| 99999|          222.0|          222.0|          222.0|          222.0|
		|     2|          200.0|          200.0|          200.0|          200.0|
		+------+---------------+---------------+---------------+---------------+
         */

        Map<String, String> map = new HashMap<>();
        map.put("totalPrice", "avg");
        map.put("totalPrice", "max");
        map.put("totalPrice", "min");
        map.put("totalPrice", "sum");
        ordersDataSet.groupBy("userId").agg(map).show();
        /*
		+------+---------------+
		|userId|sum(totalPrice)|
		+------+---------------+
		|     1|          130.0|
		| 99999|          222.0|
		|     2|          200.0|
		+------+---------------+
         */

        //对整个orders进行聚合计算
        ordersDataSet.agg(
                avg("totalPrice"),
                max("totalPrice"),
                min("totalPrice"),
                sum("totalPrice")).show();
        /*
		+---------------+---------------+---------------+---------------+
		|avg(totalPrice)|max(totalPrice)|min(totalPrice)|sum(totalPrice)|
		+---------------+---------------+---------------+---------------+
		|          138.0|          222.0|           50.0|          552.0|
		+---------------+---------------+---------------+---------------+
         */

        ordersDataSet.agg(map).show();
        /*
		+---------------+
		|sum(totalPrice)|
		+---------------+
		|          552.0|
		+---------------+
         */
    }
}

 

以下是使用 Spark SQL 进行按教师工号和课程进行分组聚合查询不同老师所教不同课程的平均分的示例代码: ```scala // 导入需要使用的 Spark SQL 相关类 import org.apache.spark.sql.functions._ import org.apache.spark.sql.types._ // 读取数据源,假设有两个数据表,一个是教师基本信息表 teachers,包含字段 teacher_id 和 teacher_name;另一个是学生成绩表 scores,包含字段 teacher_id、course_name 和 score val teachers = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("teachers.csv") val scores = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("scores.csv") // 对 scores 表进行分组聚合和计算平均分 val avgScore = scores.groupBy("teacher_id", "course_name") .agg(avg("score").alias("avg_score")) // 将 teacher_id 字段重命名为 teachers 表中的字段名 teacher_id,以便进行 join 操作 val avgScoreWithTeacherId = avgScore.withColumnRenamed("teacher_id", "teacher_id_temp") // 执行 join 操作,将教师基本信息表和分组聚合后的平均分表进行关联 val result = teachers.join(avgScoreWithTeacherId, teachers("teacher_id") === avgScoreWithTeacherId("teacher_id_temp")) .select("teacher_id", "teacher_name", "course_name", "avg_score") // 最后,按照教师工号和课程进行分组排序,并输出结果 val finalResult = result.groupBy("teacher_id", "course_name") .agg(mean("avg_score").alias("avg_score")) .orderBy("teacher_id", "course_name") finalResult.show() ``` 需要注意的是,这里示例代码中的数据表以 CSV 文件的形式存储在本地磁盘上,需要根据实际情况修改数据源的读取方式和路径。同时,如果数据表的字段类型不符合要求,需要通过 drop() 和 cast() 方法等操作进行字段类型转换和删除不必要的字段。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值