最近朋友问我spark是啥,其实我也不知道,但是既然开源了,想必看看文档,看看示例,自己也能清楚个7788.。
废话不多,先从github 上下载代码 git clone https://github.com/apache/spark.git
下载完毕之后,到spark 执行 build/mvn -DskipTests clean package
build success 之后, ./bin/spark-shell 之后 运行sc.parallelize(1 to 1000).count() 返回1000 即可
完了之后,就是怎么运行我们自己写的程序呢? 还是那spark中的例子来看,如何wordcount
接下来就得启动spark
先启动 master ./sbin/start-master.sh 再启动./sbin/start-slave.sh 下图表明spark已经可以工作了。
接下来 spark-submit来提交这个job
~/spark/code/./bin/spark-submit --master spark://ubuntu:7077 --class org.apache.spark.examples.JavaWordCount /home/ak/spark/code/spark/examples/target/original-spark-examples_2.11-2.3.0-SNAPSHOT.jar /home/ak/spark/resources/1.txt
运行成功,接下来将自己写一个jar来执行代码中kafkawordcount的例子