Spark编程: Spark SQL基本操作 2020.11.01

最新推荐文章于 2022-12-18 18:15:02 发布

_大木_

最新推荐文章于 2022-12-18 18:15:02 发布

阅读量2.4k

点赞数 4

文章标签： spark scala json

本文链接：https://blog.csdn.net/Beyond_Nothing/article/details/109412190

版权

Spark & Scala 专栏收录该内容

18 篇文章

订阅专栏

文章目录

- 为employee.json 创建DataFrame, 并写出Scala语句完成下列操作:

建下列JSON格式的数据复制到Linux系统中,并保存命名为employee.json

{ "id":1 , "name":" Ella" , "age":36 } 
{ "id":2, "name":"Bob","age":29 } 
{ "id":3 , "name":"Jack","age":29 } 
{ "id":4 , "name":"Jim","age":28 }
{ "id":4 , "name":"Jim","age":28 } 
{ "id":5 , "name":"Damon" } 
{ "id":5 , "name":"Damon" }

为employee.json 创建DataFrame, 并写出Scala语句完成下列操作:

在这里插入图片描述

(1)查询所有数据;

import spark.implicits._
val df=spark.read.json("file:///home/beyond-dhl/Desktop/sparkSQL/employee.json")
df.show()

在这里插入图片描述

(2)查询所有数据,并去除重复的数据;

df.distinct().show()

在这里插入图片描述

(3)查询所有数据, 打印时去除id字段;

df.drop(df("id")).show()

在这里插入图片描述

(4)筛选出age>30 的记录;

df.filter(df("age")>30).show()

在这里插入图片描述

(5)将数据按age分组

df.groupBy(df("age")).count.show()

在这里插入图片描述

(6)将数据按neme升序排列

df.sort(df("name").asc).show()

在这里插入图片描述

(7)取出前3行数据

df.show(3)

在这里插入图片描述

(8)打印时修改name 的列名为 username

df.select(df("name").as("username")).show()

在这里插入图片描述

(9)age 的平均值(agg是聚合操作)

df.agg("age"->"avg").show()

在这里插入图片描述

(10)age 的最小值

df.agg("age"->"min").show()

在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

_大木_

关注关注

4
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

【hadoop学习之路】Spark-SQL 实验报告 RDD转DataFrame

onion23的博客

06-25

4291

1. Spark-SQL 基本操作 需求将下列JSON格式数据复制到Linux系统中，并保存命名为employee.json { "id":1 , "name":"Ella" , "age":36 } { "id":2, "name":"Bob","age":29 } { "id":3 , "name":"Jack","age":29 } { "id":4 , "name":"Jim","age·":28 } { "id":4 , "name":"Jim","age":28 } { "i

Spark SQL编程初级实践

最新发布

充满焦虑的大学生

04-30

3646

【代码】Spark SQL编程初级实践。

参与评论您还未登录，请先登录后发表或查看评论

查询及删除重复记录的方法大全

Codegeek_jfl的博客

09-25

619

1、查询表中重复数据。select * from people where peopleId in (select peopleId from people group by peopleId having count(peopleId) > 1)2、删除表中多余的重复记录，重复记录是根据单个字段（peopleId）来判断，只留有rowid最小的记录delete fr

实验5 Spark SQL 编程初级实践

qq_45952294的博客

05-14

9920

实验5 Spark SQL 编程初级实践一、实验目的（1）通过实验掌握Spark SQL的基本编程方法。（2）熟悉RDD到DataFrame的转化方法。（3）熟悉利用Spark SQL管理来自不同数据源的数据。二、实验平台操作系统：Linux Spark版本：2.4.5 scala版本：2.11.8 三、实验内容和要求 1.Spark SQL基本操作 将下列JSON格式数据复制到Linux系统中，并保存命名为employee.json。文件内容如下： { “id”:1 , “name”:" E

Spark SQL编程

Ricardo的树屋

11-16

3334

1、Spark SQL基本操作 （一）创建DataFrame （二）查询所有数据（三）查询所有数据并去除重复的数据（四）查询所有数据打印时去除id字段（五）筛选出age>30的记录（六）将数据按age分组（七）将数据按name升序排序（八）取出前3行数据（九）查询所有记录的name列，并为其取别名为username （十）查询年龄age的平均值（十一）查询年龄age的最小值 2、编程实现将RDD转换...

SparkSQL详细的调优步骤及参数配置？

abxzq19870214的博客

12-18

3196

在spark-defaults.conf文件中设置spark.sql.shuffle.partitions参数，该参数控制shuffle操作的分区数，一般设置为每个executor的cores的数量，可以根据实际情况调整。在spark-defaults.conf文件中设置spark.executor.cores参数，该参数控制executor的cores，一般设置为每个executor的cores，可以根据实际情况调整。

spark编程:使用spark sql 连接数据库 2020.11.01

03-16

Spark编程可以使用Spark SQL连接数据库。Spark SQL是Spark的一个模块，它提供了一种使用SQL语言进行数据处理的方式。通过Spark SQL，可以使用SQL语句查询和操作数据库中的数据。Spark SQL支持多种数据库，包括MySQL...

2020.11.23(spark-sql、复杂sql、函数、自定义函数)

06-28

Spark SQL是Spark中的一个模块，它提供了一种基于结构化数据的编程接口，可以使用SQL语句来查询和操作数据。Spark SQL支持多种数据源，包括Hive、JSON、Parquet等。复杂SQL是指包含多个子查询、联合查询、嵌套查询...

Apache Spark SQL

qq_37108736的博客

03-29

421

Apache Spark SQL Spark SQL是⽤于结构化数据处理的⼀个模块。同Spark RDD 不同地⽅在于Spark SQL的API可以给Spark计算引擎提供更多地信息，例如:数据结构、计算算⼦等。在内部Spark可以通过这些信息有针对对任务做优化和调整。这⾥有⼏种⽅式和Spark SQL进⾏交互，例如Dataset API和SQL等，这两种API可以混合使⽤。Spark SQL的...

2020-11-11--Spark编程基础（Scala版）第6章 Spark SQL

qq_44494957的博客

11-13

1146

第6章 Spark SQL6.1 Spark SQL简介6.1.1 从Shark说起Shark的设计导致了两个问题6.1.2 Spark SQL设计6.1.3 为什么推出Spark SQL6.2 DataFrame概述6.3 DataFrame的创建6.4 DataFrame的保存6.5 DataFrame的常用操作6.6 从RDD转换得到DataFrame6.7 使用Spark SQL读写数据库 6.1 Spark SQL简介 6.1.1 从Shark说起 Shark即Hive on Spark，为了

SPark SQL编程初级实践

weixin_30437481的博客

03-26

1576

今下午在课上没有将实验做完，课下进行了补充，最终完成。下面附上厦门大学数据库实验室中spark实验官网提供的标准答案，以供参考。三、实验内容和要求 1．Spark SQL 基本操作 将下列 json 数据复制到你的 ubuntu 系统/usr/local/spark 下，并保存命名为 employee.json。 { "id":1 ,"name":" Ella...

Spark面试题（一）

辛聪明的博客

01-02

6275

目录一、单项选择题二、不定项选题三、填空题四、判断题五、简答题六、编程题一、单项选择题 1、下面哪个操作是窄依赖？（） join filter group sort RDD之间的血缘关系又称依赖，包括两种，一种是窄依赖，RDDs之间分区是一一对应的，另一种是宽依赖，下游RDD的每个分区与上游RDD(也称之为父RDD)的每个分区都有关，是多对多...

SQL查询返回去除重复数据的结果集

weixin_30378623的博客

12-25

2754

方法一： select * from tablename where id in (select id from tablename group by id having count(id) > 1 ) 方法二： select DISTINCT t.* from ( select* from Goods g ) t 转载于:https:...

数据库去除重复数据

aiyongbo123456的博客

02-15

3732

背景：去除数据库中字段重复的数据表t_bmk 包含三个字段 id,ksno,fenzu_code;现在去除t_bmk中ksno和fenzu_code两个字段重复的数据，步骤如下：方法一： 1、根据重复字段用group by函数进行分组，查出所有重复的数据，用max函数获取每组重复数据最大的id select fenzu_code,zhiwen_status,count(fenzu_cod...

SparkSQL创建RDD：<1>读取json格式的文件创建DataFrame【Java，Scala纯代码】

wyqwilliam的博客

08-04

1767

注意： json文件中的json数据不能嵌套json格式数据。 DataFrame是一个一个Row类型的RDD，df.rdd()/df.javaRdd()。可以两种方式读取json格式的文件。 df.show()默认显示前20行数据。 DataFrame原生API可以操作DataFrame（不方便）。注册成临时表时，表中的列默认按ascii顺序显示列。 Java版本 pack...

具有Set属性的Queue

走在前往架构师的路上

12-06

4659

在最近的工作中，遇到了一个特殊的需求：我们需要一个队列来存放某数据对象，但是这个对象的数量是巨大的，如果将这些对象都存入队列的话，很显然内存会爆表，但是这些对象有一个特征是，相同的数据对象类型的数据是可更新的。换句话说，对于同一类数据对象，后面来的对象的值一定比前面的新，是可以完全覆盖前面的。

mysql查询所有记录，并去掉重复的记录

weixin_30485799的博客

04-28

140

select * from tablename group by name;如果是select * from tablename group by name,age;那么查询的是满足name和age都不重复的记录。转载于:https://www.cnblogs.com/wangdahai/p/5441407.html...

SparkSQL 实验

qq_44421796的博客

04-29

1105

将下列JSON格式数据复制到Linux系统中，并保存命名为employee.json。 { “id”:1 , “name”:" Ella" , “age”:36 } { “id”:2, “name”:“Bob”,“age”:29 } { “id”:3 , “name”:“Jack”,“age”:29 } { “id”:4 , “name”:“Jim”,“age”:28 } { “id”:4 , “name”:“Jim”,“age”:28 } { “id”:5 , “name”:“Damon” } { “id

DataFrame的几种创建方式

weixin_42073629的博客

12-07

1114

1.读取json格式的文件创建DataFrame json文件如下： {"name":"Fanbingbing", "score":100} {"name":"Xuruyun", "score":99} {"name":"Liangyongqi", "score":74} Java代码： package demo.java.cn; import org.apache.spark.SparkConf; import org.apache.spark.SparkContext; import .

Spark编程: Spark SQL基本操作 2020.11.01

文章目录

为employee.json 创建DataFrame, 并写出Scala语句完成下列操作:

(1)查询所有数据;

(2)查询所有数据,并去除重复的数据;

(3)查询所有数据, 打印时去除id字段;

(4)筛选出age>30 的记录;

(5)将数据按age分组

(6)将数据按neme升序排列

(7)取出前3行数据

(8)打印时修改name 的列名 为 username

(9)age 的平均值(agg是聚合操作)

(10)age 的最小值

(8)打印时修改name 的列名为 username