docker下,极速搭建spark集群(含hdfs集群)(1)

以下是本次实战涉及的版本号:

  1. 操作系统:CentOS7

  2. hadoop:2.8

  3. spark:2.3

  4. docker:17.03.2-ce

  5. docker-compose:1.23.2

极速搭建spark集群(含hdfs集群)

  1. 在CentOS7机器上建一个文件夹(例如test),进入此文件夹;

  2. 在新建的文件夹内执行如下命令,即可搭建好spark和hdfs集群:

wget https://raw.githubusercontent.com/zq2599/blog_demos/master/sparkdockercomposefiles/docker-compose.yml \

&& wget https://raw.githubusercontent.com/zq2599/blog_demos/master/sparkdockercomposefiles/hadoop.env \

&& docker-compose up -d

没错,执行上面的命令就够了,只要静候命令执行完成,整个spark和hdfs集群环境就搭建好了;

查看环境

接下来检查一下整个环境是否正常,假设当前CentOS电脑的IP地址是192.168.1.101

  1. 用浏览器查看hdfs,如下图,可见有三个DataNode,地址是:http://192.168.1.101:50070

在这里插入图片描述

  1. 用浏览器查看spark,如下图,可见只有一个worker,地址是:http://192.168.1.101:8080

在这里插入图片描述

注意:spark的worker数量,以及worker内存的分配,都可以通过修改docker-compose.yml文件来调整;

准备实战数据

  1. 登录CentOS7电脑,在刚才执行命令的目录下,发现多了几个文件夹,如下所示,注意input_files和jars这两个,稍后会用到:

[root@hedy 009]# ls -al

总用量 8

drwxr-xr-x. 6 root root 105 2月 10 00:47 .

drwxr-xr-x. 10 root root 94 2月 10 00:47 …

drwxr-xr-x. 4 root root 34 2月 10 00:47 conf

drwxr-xr-x. 2 root root 6 2月 10 00:47 data

-rw-r–r–. 1 root root 3046 2月 10 00:47 docker-compose.yml

-rw-r–r–. 1 root root 1189 2月 10 00:47 hadoop.env

drwxr-xr-x. 2 root root 6 2月 10 00:47 input_files

drwxr-xr-x. 2 root root 6 2月 10 00:47 jars

  1. 稍后的实战是经典的WordCount,也就是将指定文本中的单词出现次数统计出来,因此要先准备一个文本文件,我这里在网上找了个英文版的《乱世佳人》,文件名为GoneWiththeWind.txt,读者您请自行准备一个英文的txt文件,放入input_files文件夹中;

  2. 执行以下命令,即可在hdfs上创建/input文件夹,再将GoneWiththeWind.txt上传到此文件夹中:

docker exec namenode hdfs dfs -mkdir /input \

&& docker exec namenode hdfs dfs -put /input_files/GoneWiththeWind.txt /input

您可能会有疑问:txt文件在宿主机上,hdfs是docker容器,怎么能上传上去呢?您看过docker-compose.yml就会发现,宿主机的input_files目录已经挂载到namenode容器上了,所以上面的命令其实就是将容器内的文件上传到hdfs上去;

4. 用浏览器查看hdfs,如下图,可见txt文件已经上传到hdfs上:

在这里插入图片描述

spark_shell实战WordCount

  1. 在CentOS电脑的命令行输入以下命令,即可创建一个spark_shell:

docker exec -it master spark-shell --executor-memory 512M --total-executor-cores 2

如下所示,已经进入了spark_shell的对话模式:

[root@hedy ~]# docker exec -it master spark-shell --executor-memory 512M --total-executor-cores 2

2019-02-09 17:13:44 WARN NativeCodeLoader:62 - Unable to load native-hadoop library for your platform… using builtin-java classes where applicable

Setting default log level to “WARN”.

To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).

Spark context Web UI available at http://localhost:4040

Spark context available as ‘sc’ (master = spark://master:7077, app id = app-20190209171354-0000).

Spark session available as ‘spark’.

Welcome to


/ / ___ ___/ /

\ / _ / _ `/ __/ '/

// ./_,// //_\ version 2.3.0

/_/

Using Scala version 2.11.8 (Java HotSpot™ 64-Bit Server VM, Java 1.8.0_131)

Type in expressions to have them evaluated.

Type :help for more information.

scala>

  1. 继续输入以下命令,也就是scala版的WordCount:

sc.textFile(“hdfs://namenode:8020/input/GoneWiththeWind.txt”).flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + ).sortBy(._2,false).take(10).foreach(println)

  1. 稍后控制台就会输出整个txt中出现次数最多的十个单词,以及对应的出现次数,如下:

scala> sc.textFile(“hdfs://namenode:8020/input/GoneWiththeWind.txt”).flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + ).sortBy(._2,false).take(10).foreach(println)

(the,18264)

(and,14150)

(to,10020)

(of,8615)

(a,7571)

(her,7086)

(she,6217)

(was,5912)

(in,5751)

(had,4502)

scala>

  1. 用浏览器查看spark,如下图,可见任务正在执行中(因为shell还没有退出),地址是:http://192.168.1.101:8080

在这里插入图片描述

  1. 输入Ctrl+c,退出shell,释放资源;

至此,spark_shell的实战就完成了,如果您是位java开发者,请接着往下看,咱们一起来实战java版spark应用的提交运行;

java实战WordCount

关于接下来的java版的WordCount,本文直接将jar下载下来用,而这个jar对应的源码以及开发过程,请参考文章《第一个spark应用开发详解(java版)》

  1. 在docker-compose.yml文件所在目录下,有个jars目录,进入此目录执行以下命令,就会将实战用到的jar文件下载到jars目录:

wget https://raw.githubusercontent.com/zq2599/blog_demos/master/sparkdockercomposefiles/sparkwordcount-1.0-SNAPSHOT.jar

  1. 执行以下命令,即可向spark提交java应用执行:

docker exec -it master spark-submit \

–class com.bolingcavalry.sparkwordcount.WordCount \

–executor-memory 512m \

–total-executor-cores 2 \

/root/jars/sparkwordcount-1.0-SNAPSHOT.jar \

namenode \

8020 \

GoneWiththeWind.txt

最后

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数Java工程师,想要提升技能,往往是自己摸索成长,自己不成体系的自学效果低效漫长且无助。

因此收集整理了一份《2024年Java开发全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友,同时减轻大家的负担。

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,不论你是刚入门Java开发的新手,还是希望在技术上不断提升的资深开发者,这些资料都将为你打开新的学习之门!

如果你觉得这些内容对你有帮助,需要这份全套学习资料的朋友可以戳我获取!!

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

[外链图片转存中…(img-ax5p2bwe-1715629146382)]

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上Java开发知识点,不论你是刚入门Java开发的新手,还是希望在技术上不断提升的资深开发者,这些资料都将为你打开新的学习之门!

如果你觉得这些内容对你有帮助,需要这份全套学习资料的朋友可以戳我获取!!

由于文件比较大,这里只是将部分目录截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且会持续更新!

  • 12
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值