如何开发SparkSQL项目？

最新推荐文章于 2024-07-16 20:32:10 发布

曲健磊的个人博客

最新推荐文章于 2024-07-16 20:32:10 发布

阅读量885

点赞数

分类专栏：【Spark】文章标签： SparkSql

本文链接：https://blog.csdn.net/a909301740/article/details/102723560

版权

本文介绍了如何开发SparkSQL项目，从开发环境搭建到代码运行的全过程。首先，讲解了使用IDEA、安装Scala插件、创建Maven项目及添加Scala SDK的步骤。接着，概述了SparkSQL在大数据计算中的角色，以及开发流程，包括读取HDFS文件、转换为RDD、注册临时表、编写SQL查询和将结果存储到MySQL。最后，提到了项目的pom依赖、模拟数据文件和运行代码的方法。

摘要由CSDN通过智能技术生成

前言

Spark是企业中用的比较多的大数据计算框架，它主要由 SparkCore、SparkSQL、SparkStreaming 这三个模块组成，实时计算主要使用 SparkStreaming，离线部分的数据处理则主要使用SparkSQL。开发 SparkSQL 程序的一般流程是：读取 HDFS 上的文件 => 装换成 RDD => 注册成临时表 => 调用 SparkSQL 的 API 编写 spark sql 查询语句进行计算 => 将结果存入 mysql 数据库。

一、开发环境搭建

可以使用 IDEA 或 Scala IDE，以 IDEA 为例：

PS：建议大家使用 IDEA，之前博主下载使用过 ScalaIDE，写代码的时候都没法自动导包，影响开发效率。

1. 下载 IDEA

下载地址：https://www.jetbrains.com/idea/download/#section=windows
在这里插入图片描述

2. 下载Scala

下载地址：https://www.scala-lang.org/download/all.html
博主用的版本是2.11.8
在这里插入图片描述

3. IDEA上安装Scala插件

File => Settings => Plugins => 右侧搜索框输入Scala => 查询出的结果点击 Install
（博主是因为已经安装过了所以才会出现 Installed，没安装过的那个按钮应该是像下图中的绿色的按钮那样）
在这里插入图片描述

4. 创建Maven项目

创建Maven项目：File => new => Project => Maven Project => Next => Next => Finish
在这里插入图片描述

5. 在library中添加Scala的SDK

默认会有一个 Java 的 SDK，因为我们要使用 Scala 语言来写 Spark 项目，所以还要添加一个 Scala SDK。

File => Project Structure => Project Settings => Libraries => + => Scala SDK => Browse => 选中下载好的 scala所在的目录 => 点击OK
在这里插入图片描述
就会发现我们的 External Libraries 下多了一个 Scala SDK，然后我们就可以在项目中右击创建 Scala 类了

在这里插入图片描述
右击 => New => Scala Class => 选择Object，输入类名 => 确定

二、代码部分

1. pom依赖

<properties>
    <maven.compiler.source>1.8</maven.compiler.source>
    <maven.compiler.target>1.8</maven.compiler.target>
    <scala.version</

最低0.47元/天解锁文章

曲健磊的个人博客

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录