前言
Spark是企业中用的比较多的大数据计算框架,它主要由 SparkCore、SparkSQL、SparkStreaming 这三个模块组成,实时计算主要使用 SparkStreaming,离线部分的数据处理则主要使用SparkSQL。开发 SparkSQL 程序的一般流程是:读取 HDFS 上的文件 => 装换成 RDD => 注册成临时表 => 调用 SparkSQL 的 API 编写 spark sql 查询语句进行计算 => 将结果存入 mysql 数据库。
一、开发环境搭建
可以使用 IDEA 或 Scala IDE,以 IDEA 为例:
PS:建议大家使用 IDEA,之前博主下载使用过 ScalaIDE,写代码的时候都没法自动导包,影响开发效率。
1. 下载 IDEA
下载地址:https://www.jetbrains.com/idea/download/#section=windows
2. 下载Scala
下载地址:https://www.scala-lang.org/download/all.html
博主用的版本是2.11.8
3. IDEA上安装Scala插件
File => Settings => Plugins => 右侧搜索框输入Scala => 查询出的结果点击 Install
(博主是因为已经安装过了所以才会出现 Installed,没安装过的那个按钮应该是像下图中的绿色的按钮那样)
4. 创建Maven项目
创建Maven项目:File => new => Project => Maven Project => Next => Next => Finish
5. 在library中添加Scala的SDK
默认会有一个 Java 的 SDK,因为我们要使用 Scala 语言来写 Spark 项目,所以还要添加一个 Scala SDK。
File => Project Structure => Project Settings => Libraries => + => Scala SDK => Browse => 选中下载好的 scala所在的目录 => 点击OK
就会发现我们的 External Libraries 下多了一个 Scala SDK,然后我们就可以在项目中右击创建 Scala 类了
右击 => New => Scala Class => 选择Object,输入类名 => 确定
二、代码部分
1. pom依赖
<properties>
<maven.compiler.source>1.8</maven.compiler.source>
<maven.compiler.target>1.8</maven.compiler.target>
<scala.version</