【大数据处理架构】2. 用sbt 构建工具 到spark cluster

我们使用 sbt 创建、测试、运行和提交作业。该教程会解释你在我们的课程中将会用到的所有 sbt 命令。工具安装页说明了如何安装 sbt。我们一般将代码和库做成jar包,通过spark-submit 提交到spark 集群上运行。

1)下载安装:

     http://www.scala-sbt.org/

2)创建工程:

比如现在的工程名为“sparksample”。那么

2
3
4
5
cd sparksample
mkdir project
mkdir src / main / scala

     一般的工程文件结构如下:

  • project – 工程定义文件
    • project/build/.scala – 主要的工程定义文件
    • project/build.properties – 工程,sbt以及scala版本定义
  • src/main – 你的应用代码放在这里,不同的子目录名称表示不同的编程语言(例如,src/main/scala,src/main/java)
  • src/main/resources – 你想添加到jar包里的静态文件(例如日志配置文件)
  • lib_managed – 你的工程所依赖的jar文件。会在sbt更新的时候添加到该目录
  • target – 最终生成的文件存放的目录(例如,生成的thrift代码,class文件,jar文件) 

3)编写build.sbt

     name := "Spark Sample"
     version := "1.0"
     scalaVersion := "2.10.3"
     libraryDependencies += "org.apache.spark" %% "spark-core" % "1.1.1"

这里需要注意使用的版本,scala 和spark streaming的版本是否匹配等等。

http://mvnrepository.com/artifact/org.apache.spark/spark-streaming_2.10/1.4.1


4) 构建jar 包。

在project的文件目录下(e.g. "sparksample")

> sbt package

5)提交到spark:

e.g: cd /opt/spark******

bin/spark-submit --class "org.apache.spark.examples.streaming.sparksample" --packages org.apache.spark:spark-streaming-kafka_2.10:1.4.1 --master local[2]  /home/ubuntu/sparksample/target/scala-2.10/sparksample_2.10-1.0.jar 10.81.52.88:9092 tintin
具体怎么写参数,请看官方:


http://spark.apache.org/docs/latest/submitting-applications.html#submitting-applications
 注意: 略坑的是, 需要将调用的包手动加入  --packages  *****。


参考:

http://www.tuicool.com/articles/AJnIvq

http://www.scala-sbt.org/release/docs/index.html

http://www.supergloo.com/fieldnotes/apache-spark-cluster-part-2-deploy-a-scala-program-to-spark-cluster/


 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值