如何构建第一个Spark项目代码

最新推荐文章于 2024-05-04 23:45:40 发布

Ricky_Huo

最新推荐文章于 2024-05-04 23:45:40 发布

阅读量7.4k

点赞数

分类专栏： Spark 文章标签： spark scala

本文链接：https://blog.csdn.net/huochen1994/article/details/51275777

版权

本文详细介绍了如何构建第一个Spark项目，包括环境准备（本地环境、IDE配置）、IDE项目创建（新建Scala Maven项目、配置SDK）、编写主函数、修改pom.xml文件以打包，并最终提交Spark作业到Yarn集群的步骤。通过遵循这些步骤，读者可以成功地运行Spark Streaming与Kafka的示例应用。

摘要由CSDN通过智能技术生成

如何构建第一个Spark项目代码

环境准备

本地环境

操作系统
Window7/Mac
IDE
IntelliJ IDEA Community Edition 14.1.6
下载地址
JDK 1.8.0_65
下载地址
Scala 2.11.7
下载地址

其它环境

Spark:1.4.1
下载地址
Hadoop Yarn:Hadoop 2.5.0-cdh5.3.2

IDE项目创建

新建一个项目

New Project
使用Maven模型创建一个Scala项目
填写自己的GroupId、ArtifactId,Version不需要修改，Maven会根据GroupId生成相应的目录结构，GroupId的取值一般为a.b.c 结构,ArtifactId为项目名称。之后点击next，填写完项目名称和目录，点击finish就可以让maven帮你创建Scala项目

项目创建完成后，目录结构如下

4.为项目添加JDK以及Scala SDK
点击File->Project Structure，在SDKS和Global Libraries中为项目配置环境。

至此整个项目结构、项目环境都搭建好了

编写主函数

主函数的编写在 projectName/src/main/scala/…/下完成，如果按照上述步骤完成代码搭建，将在目录最后发现

MyRouteBuild
MyRouteMain

这两个文件为模块文件，删除MyRouteBuild,重命名MyRouteMain为DirectKafkaWordCount。这里，我使用Spark Streaming官方提供的一个代码为实例代码，代码如下

package org.apache.spark.examples.streaming

import kafka.serializer.StringDecoder

import org.apache.spark.streaming._
import org.apache.spark.streaming.kafka._
import org.apache.spark.SparkConf

object DirectKafkaWordCount {
  def main(args: Array[String]) {
    if (args.length < 2) {
      System.err.println("...")
      System.exit(