【hadoop学习之路】Spark-SQL 实验报告 RDD转DataFrame

最新推荐文章于 2022-04-10 21:21:52 发布

新世纪debug战士

最新推荐文章于 2022-04-10 21:21:52 发布

阅读量4.1k

点赞数 5

分类专栏： hadoop学习之路文章标签：大数据 spark hive scala

本文链接：https://blog.csdn.net/onion23/article/details/118196615

版权

本文介绍了如何使用Spark SQL进行基本操作，包括从JSON数据创建DataFrame，执行各种查询如筛选、分组、排序等。同时，文章详细展示了将RDD转换为DataFrame的过程，并给出了具体的Scala代码实现。

摘要由CSDN通过智能技术生成

1. Spark-SQL 基本操作

1.1 需求

将下列JSON格式数据复制到Linux系统中，并保存命名为employee.json

{ "id":1 , "name":"Ella" , "age":36 }

{ "id":2, "name":"Bob","age":29 }

{ "id":3 , "name":"Jack","age":29 }

{ "id":4 , "name":"Jim","age·":28 }

{ "id":4 , "name":"Jim","age":28 }

{ "id":5 , "name":"Damon" }

{ "id":5 , "name":"Damon" }

为employee.json创建DataFrame，并写出Scala语句完成下列操作：

(1) 查询所有数据；

(2) 查询所有数据，并去除重复的数据；

(3) 查询所有数据，打印时去除id字段；

(4) 筛选出age>30的记录；

(5) 将数据按age分组；

(6) 将数据按name升序排列；

(7) 取出前3行数据&

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

新世纪debug战士

关注关注

5
点赞
踩
38

收藏

觉得还不错? 一键收藏
1
评论
【hadoop学习之路】Spark-SQL 实验报告 RDD转DataFrame

1. Spark-SQL 基本操作需求将下列JSON格式数据复制到Linux系统中，并保存命名为employee.json{ "id":1 , "name":"Ella" , "age":36 }{ "id":2, "name":"Bob","age":29 }{ "id":3 , "name":"Jack","age":29 }{ "id":4 , "name":"Jim","age·":28 }{ "id":4 , "name":"Jim","age":28 }{ "i
复制链接

扫一扫