Spark SQL 简单使用

环境:scala 版本2.11.8,spark 版本2.0.1,使用 Intellij IDEA 来开发。
准备工作:

创建maven项目

可以从官网上找到我们建项目时使用的 archetype
这里写图片描述
至于具体怎么创建项目,请参考一个朋友的文章Intellij IDEA 创建 spark/scala 项目
这个是前一段时间发现的一个朋友,强烈推荐大家去转转。
好了,这样一来就默认大家创建好了项目…

1 第一个例子

1.1 创建 SparkSession

这里写图片描述
官方文档如是说。
那么我们可以按照这个例子来写。

import org.apache.spark.sql.SparkSession

val spark = SparkSession
            .builder()
            .appName("sql test")
            .master("local")
            .getOrCreate()

import spark.implicits._            
1.2 创建 DataFrames

这里写图片描述

//创建dataframe
val df = spark.read.json("C:\\Users\\Administrator\\Desktop\\people.json")

df.show()
// +----+-------+
// | age|   name|
// +----+-------+
// |null|Michael|
// |  30|   Andy|
// |  19| Justin|
// +----+-------+

就像官网写的那样,我们可以调用 show() 方法来打印出 df 的数据。这里我是把官网上的示例给放到了指定的目录。当然,我们也可以自己创建一个 json 文件,格式如下:

{"name":"Signal"}
{"name":"May j Lee","age":20}
{"name":"Jay Chou","age":36}
{"name":"Jack Chen","age":60}

当然,还有一些其他操作,我就不一一敲了,官网上给出的示例非常详细。用到类似的了就去官网上查…
这里写图片描述

我们还可以使用 SQL 语句来操作:
这里写图片描述

不过在我们使用 SQL 进行操作之前,需要使用 createOrReplaceTempView() 方法,熟悉 SQL 语句人肯定都知道”视图(view)“,接下来这个就是我们要操作的对象。

df.createOrReplaceTempView("people")
val sqlDF = spark.sql("select * from people")
sqlDF.show()

2 第二个例子

在第一个例子中,我们是根据一个 json 文件进行了一系列的操作,接下来我们是不是可以创建一个呢?

这里我们需要使用到的对象是 DataSets

2.1 创建 DataSets

这里写图片描述

我们还是参照官网的例子来写:

def createDataSetsTest(spark:SparkSession): Unit ={
  import spar
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值