Spark SQL Dataset 常用API 二

最新推荐文章于 2024-04-03 06:00:00 发布

Brad_Q1

最新推荐文章于 2024-04-03 06:00:00 发布

阅读量290

点赞数 2

分类专栏：大数据 spark 文章标签： spark hadoop

本文链接：https://blog.csdn.net/Brad_Q1/article/details/87529122

版权

本文介绍了如何使用Spark SQL Dataset API实现数据过滤、表联接、分组聚合等功能。通过实例展示了如何使用filter、join、groupBy、agg等API，与SQL语句相对照，便于理解其在数据处理中的应用。文中强调了DataFrame的编程性质，允许在处理过程中方便地调试，而不会立即触发计算。

摘要由CSDN通过智能技术生成

Transformation

Untyped API

前面一篇写了SELECT这个API的一些主要用法，本文打算通过一个SQL示例来展开讲述下Dataset其他常用的Untyped API，比如filter(类似于where),join,groupby 等等。

首先，描述下大概的需求：
表一，描述了一家五口人，有名字，年龄和性别，先在mysql中建表，并且插入数据

create table if not exists family_name(name varchar(10),age int, sex varchar(6));
INSERT INTO family_name
VALUES
('Brad',32,'male')
,('Anne',31,'female')
,('Eason',4,'male')
,('John',66,'male')
,('Annie',60,'female')
;

表二，描述了这一家人在2018年第一周的花费情况，建表以及插入数据语句如下

create table if not exists family_consume(log_date date,name varchar(10),amount decimal(18,2));
INSERT INTO family_consume
VALUES
('2018-01-01','Brad',12)
,('2018-01-01','Anne',32)
,('2018-01-01','John',22)
,('2018-01-01','Annie',12)
,('2018-01-01','Eason',421)
,('2018-01-02','Brad',23)
,('2018-01-02','Anne',44)
,('2018-01-02','John',12)
,('2018-01-02','Annie',54)
,('2018-01-02','Eason',31)
,('2018-01-03','Brad',34)
,('2018-01-03','Anne',88)
,('2018-01-03','John',12)
,('2018-01-03','Annie',1)
,('2018-01-03','Eason',0)
,('2018-01-04','Brad',44)
,('2018-01-04','Anne',231)
,('2018-01-04','John',12)
,('2018-01-04','Annie',56)
,(

最低0.47元/天解锁文章

Brad_Q1

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
Spark SQL Dataset 常用API 二

TransformationUntyped API前面一篇写了SELECT这个API的一些主要用法，本文打算通过一个SQL示例来展开讲述下Dataset其他常用的Untyped API，比如filter(类似于where),join,groupby 等等。首先，描述下大概的需求：表一，描述了一家五口人，有名字，年龄和性别，先在mysql中建表，并且插入数据create table if ...
复制链接

扫一扫