eclipse怎么用java写spark_eclipse下进行spark开发(已实践)

开发准备:

jdk1.8.45

spark-2.0.0-bin-hadoop2.7(windows下和linux个留一份)

Linux系统(centos或其它)

spark安装环境

hadoop-2.7.2(linux一份)

Hadoop安装环境

开发环境搭建步骤如下:

1. 下载scala-SDK-4.4.1-vfinal-2.11-win32.win32.x86_64.tgz

2. 解压压缩包,直接运行里面的eclipse

3. 创建scala project,并创建scala类WordCount

3ceb6bb9067b7756ef66ef220c589f8e.png

4. 右键工程属性,添加spark-2.0.0-bin-hadoop2.7下面所有的库,可自定义库放进来:

2531349ea1eb6e152d286ee76084b79a.png

5. 编辑代码如下:

import org.apache.spark._

import SparkContext._

object WordCount {

def main(args: Array[String]) {

if (args.length != 3 ){

println("usage is org.test.WordCount ")

return

}

val sc = new SparkContext(args(0), "WordCount",

System.getenv("SPARK_HOME"), Seq(System.getenv("SPARK_TEST_JAR")))

val textFile = sc.textFile(args(1))

val result = textFile.flatMap(line => line.split("\\s+"))

.map(word => (word, 1)).reduceByKey(_ + _)

result.saveAsTextFile(args(2))

}

}

6. 右键类,导出jar文件:

746824799b89462caaa9df38eac394bb.png

7. 在spark部署路径执行(可以通过spark的日志找到spark的master地址):

./spark-submit  --num-executors 1 --executor-memory 1g --class WordCount --master spark://10.130.41.59:7077 spark-wordcount-in-scala.jar spark://10.130.41.59:7077 hdfs://hadoop:9000/user/hadoop/input hdfs://hadoop:9000/user/hadoop/outspark

8. 参数解析:

可以执行./spark-submit --help获得帮助

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值