如何开发SparkSQL项目?

前言Spark是企业中用的比较多的大数据计算框架,它主要由 SparkCore、SparkSQL、SparkStreaming 这三个模块组成,实时计算主要使用 SparkStreaming,离线部分的数据处理则主要使用SparkSQL。开发 SparkSQL 程序的一般流程是:读取 HDFS 上的文件 => 装换成 RDD => 注册成临时表 => 调用 SparkSQL 的...
摘要由CSDN通过智能技术生成

前言

Spark是企业中用的比较多的大数据计算框架,它主要由 SparkCore、SparkSQL、SparkStreaming 这三个模块组成,实时计算主要使用 SparkStreaming,离线部分的数据处理则主要使用SparkSQL。开发 SparkSQL 程序的一般流程是:读取 HDFS 上的文件 => 装换成 RDD => 注册成临时表 => 调用 SparkSQL 的 API 编写 spark sql 查询语句进行计算 => 将结果存入 mysql 数据库。

一、开发环境搭建

可以使用 IDEA 或 Scala IDE,以 IDEA 为例:

PS:建议大家使用 IDEA,之前博主下载使用过 ScalaIDE,写代码的时候都没法自动导包,影响开发效率。

1. 下载 IDEA

下载地址:https://www.jetbrains.com/idea/download/#section=windows
在这里插入图片描述

2. 下载Scala

下载地址:https://www.scala-lang.org/download/all.html
博主用的版本是2.11.8
在这里插入图片描述

3. IDEA上安装Scala插件

File => Settings => Plugins => 右侧搜索框输入Scala => 查询出的结果点击 Install
(博主是因为已经安装过了所以才会出现 Installed,没安装过的那个按钮应该是像下图中的绿色的按钮那样)
在这里插入图片描述

4. 创建Maven项目

创建Maven项目:File => new => Project => Maven Project => Next => Next => Finish
在这里插入图片描述

5. 在library中添加Scala的SDK

默认会有一个 Java 的 SDK,因为我们要使用 Scala 语言来写 Spark 项目,所以还要添加一个 Scala SDK。

File => Project Structure => Project Settings => Libraries => + => Scala SDK => Browse => 选中下载好的 scala所在的目录 => 点击OK
在这里插入图片描述
就会发现我们的 External Libraries 下多了一个 Scala SDK,然后我们就可以在项目中右击创建 Scala 类了

在这里插入图片描述
右击 => New => Scala Class => 选择Object,输入类名 => 确定
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

二、代码部分

1. pom依赖
<properties>
    <maven.compiler.source>1.8</maven.compiler.source>
    <maven.compiler.target>1.8</maven.compiler.target>
    <scala.version</
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值