SPARK-SQL - groupBy分组聚合相关的api，pivot实现行转列

最新推荐文章于 2024-04-24 20:12:39 发布

小哇666

最新推荐文章于 2024-04-24 20:12:39 发布

阅读量588

点赞数

分类专栏： # spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_41712271/article/details/107952769

版权

spark 专栏收录该内容

76 篇文章 0 订阅

订阅专栏

pivot实现行转列

准备json文件

{"id":"1", "orderId":"1", "name":"apple", "amount":4, "price":20.0, "userId":"1"}
{"id":"2", "orderId":"2", "name":"book", "amount":5, "price":10.0, "userId":"1"}
{"id":"3", "orderId":"3", "name":"cake", "amount":1, "price":200.0, "userId":"2"}

示例代码

import org.apache.spark.sql.Dataset;
import org.apache.spark.sql.Row;
import org.apache.spark.sql.SparkSession;

import java.util.Arrays;

public class test28_4 {
    public static void main(String[] args) {
        SparkSession spark = SparkSession
                .builder()
                .config("spark.driver.host", "localhost")
                .appName("GroupApiTest")
                .master("local")
                .getOrCreate();

        spark.sparkContext().setLogLevel("ERROR");

        Dataset<Row> orderItems = spark.read().json(Utils.BASE_PATH + "/join/order_items.json");
        orderItems.show();
        /*
        +------+---+-----+-------+-----+------+
        |amount| id| name|orderId|price|userId|
        +------+---+-----+-------+-----+------+
        |     4|  1|apple|      1| 20.0|     1|
        |     5|  2| book|      2| 10.0|     1|
        |     1|  3| cake|      3|200.0|     2|
        +------+---+-----+-------+-----+------+
         */

        orderItems.groupBy("userId").pivot("name").sum("price").show();
        /*
        +------+-----+----+-----+
        |userId|apple|book| cake|
        +------+-----+----+-----+
        |     1| 20.0|10.0| null|
        |     2| null|null|200.0|
        +------+-----+----+-----+
         */

        orderItems.groupBy("userId").pivot("name", Arrays.asList("apple", "cake")).sum("price").show();
        /*
        +------+-----+-----+
        |userId|apple| cake|
        +------+-----+-----+
        |     1| 20.0| null|
        |     2| null|200.0|
        +------+-----+-----+
         */
    }
}

小哇666

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
SPARK-SQL - groupBy分组聚合相关的api，pivot实现行转列

pivot实现行转列准备json文件{"id":"1", "orderId":"1", "name":"apple", "amount":4, "price":20.0, "userId":"1"}{"id":"2", "orderId":"2", "name":"book", "amount":5, "price":10.0, "userId":"1"}{"id":"3", "orderId":"3", "name":"cake", "amount":1, "price":200.0, "us
复制链接

扫一扫