如何构建第一个Spark项目代码
环境准备
本地环境
- 操作系统
Window7/Mac - IDE
IntelliJ IDEA Community Edition 14.1.6
下载地址 - JDK 1.8.0_65
下载地址 - Scala 2.11.7
下载地址
其它环境
- Spark:1.4.1
下载地址 - Hadoop Yarn:Hadoop 2.5.0-cdh5.3.2
IDE项目创建
新建一个项目
- New Project
- 使用Maven模型创建一个Scala项目
- 填写自己的GroupId、ArtifactId,Version不需要修改,Maven会根据GroupId生成相应的目录结构,GroupId的取值一般为a.b.c 结构,ArtifactId为项目名称。之后点击next,填写完项目名称和目录,点击finish就可以让maven帮你创建Scala项目
项目创建完成后,目录结构如下
4.为项目添加JDK以及Scala SDK
点击File->Project Structure,在SDKS和Global Libraries中为项目配置环境。
至此整个项目结构、项目环境都搭建好了
编写主函数
主函数的编写在 projectName/src/main/scala/…/下完成,如果按照上述步骤完成代码搭建,将在目录最后发现
MyRouteBuild
MyRouteMain
这两个文件为模块文件,删除MyRouteBuild,重命名MyRouteMain为DirectKafkaWordCount。这里,我使用Spark Streaming官方提供的一个代码为实例代码,代码如下
package org.apache.spark.examples.streaming
import kafka.serializer.StringDecoder
import org.apache.spark.streaming._
import org.apache.spark.streaming.kafka._
import org.apache.spark.SparkConf
object DirectKafkaWordCount {
def main(args: Array[String]) {
if (args.length < 2) {
System.err.println("...")
System.exit(

本文详细介绍了如何构建第一个Spark项目,包括环境准备(本地环境、IDE配置)、IDE项目创建(新建Scala Maven项目、配置SDK)、编写主函数、修改pom.xml文件以打包,并最终提交Spark作业到Yarn集群的步骤。通过遵循这些步骤,读者可以成功地运行Spark Streaming与Kafka的示例应用。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



