docker下，极速搭建spark集群(含hdfs集群)(1)

D1561691

于 2024-05-14 03:39:22 发布

阅读量551

点赞数 12

分类专栏：程序员文章标签： docker spark hdfs

本文链接：https://blog.csdn.net/D1561691/article/details/138830337

版权

程序员专栏收录该内容

758 篇文章 0 订阅

订阅专栏

以下是本次实战涉及的版本号：

操作系统：CentOS7
hadoop：2.8
spark：2.3
docker：17.03.2-ce
docker-compose：1.23.2

极速搭建spark集群(含hdfs集群)

在CentOS7机器上建一个文件夹(例如test)，进入此文件夹；
在新建的文件夹内执行如下命令，即可搭建好spark和hdfs集群：

wget https://raw.githubusercontent.com/zq2599/blog_demos/master/sparkdockercomposefiles/docker-compose.yml \

&& wget https://raw.githubusercontent.com/zq2599/blog_demos/master/sparkdockercomposefiles/hadoop.env \

&& docker-compose up -d

没错，执行上面的命令就够了，只要静候命令执行完成，整个spark和hdfs集群环境就搭建好了；

查看环境

接下来检查一下整个环境是否正常，假设当前CentOS电脑的IP地址是192.168.1.101

用浏览器查看hdfs，如下图，可见有三个DataNode，地址是：http://192.168.1.101:50070

在这里插入图片描述

用浏览器查看spark，如下图，可见只有一个worker，地址是：http://192.168.1.101:8080

在这里插入图片描述

注意：spark的worker数量，以及worker内存的分配，都可以通过修改docker-compose.yml文件来调整；

准备实战数据

登录CentOS7电脑，在刚才执行命令的目录下，发现多了几个文件夹，如下所示，注意input_files和jars这两个，稍后会用到：

[root@hedy 009]# ls -al

总用量 8

drwxr-xr-x. 6 root root 105 2月 10 00:47 .

drwxr-xr-x. 10 root root 94 2月 10 00:47 …

drwxr-xr-x. 4 root root 34 2月 10 00:47 conf

drwxr-xr-x. 2 root root 6 2月 10 00:47 data

-rw-r–r–. 1 root root 3046 2月 10 00:47 docker-compose.yml

-rw-r–r–. 1 root root 1189 2月 10 00:47 hadoop.env

drwxr-xr-x. 2 root root 6 2月 10 00:47 input_files

drwxr-xr-x. 2 root root 6 2月 10 00:47 jars

稍后的实战是经典的WordCount，也就是将指定文本中的单词出现次数统计出来，因此要先准备一个文本文件，我这里在网上找了个英文版的《乱世佳人》，文件名为GoneWiththeWind.txt，读者您请自行准备一个英文的txt文件，放入input_files文件夹中；
执行以下命令，即可在hdfs上创建/input文件夹，再将GoneWiththeWind.txt上传到此文件夹中：

docker exec namenode hdfs dfs -mkdir /input \

&& docker exec namenode hdfs dfs -put /input_files/GoneWiththeWind.txt /input

您可能会有疑问：txt文件在宿主机上，hdfs是docker容器，怎么能上传上去呢？您看过docker-compose.yml就会发现，宿主机的input_files目录已经挂载到namenode容器上了，所以上面的命令其实就是将容器内的文件上传到hdfs上去；

4. 用浏览器查看hdfs，如下图，可见txt文件已经上传到hdfs上：

在这里插入图片描述

spark_shell实战WordCount

在CentOS电脑的命令行输入以下命令，即可创建一个spark_shell：

docker exec -it master spark-shell --executor-memory 512M --total-executor-cores 2

如下所示，已经进入了spark_shell的对话模式：

[root@hedy ~]# docker exec -it master spark-shell --executor-memory 512M --total-executor-cores 2

2019-02-09 17:13:44 WARN NativeCodeLoader:62 - Unable to load native-hadoop library for your platform… using builtin-java classes where applicable

Setting default log level to “WARN”.

To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).

Spark context Web UI available at http://localhost:4040

Spark context available as ‘sc’ (master = spark://master:7077, app id = app-20190209171354-0000).

Spark session available as ‘spark’.

Welcome to

/ / ___ ___/ /

\ / _ / _ `/ __/ '/

// ./_,// //_\ version 2.3.0

/_/

Using Scala version 2.11.8 (Java HotSpot™ 64-Bit Server VM, Java 1.8.0_131)

Type in expressions to have them evaluated.

Type :help for more information.

scala>

继续输入以下命令，也就是scala版的WordCount：

sc.textFile(“hdfs://namenode:8020/input/GoneWiththeWind.txt”).flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + ).sortBy(._2,false).take(10).foreach(println)

稍后控制台就会输出整个txt中出现次数最多的十个单词，以及对应的出现次数，如下：

scala> sc.textFile(“hdfs://namenode:8020/input/GoneWiththeWind.txt”).flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_ + ).sortBy(._2,false).take(10).foreach(println)

(the,18264)

(and,14150)

(to,10020)

(of,8615)

(a,7571)

(her,7086)

(she,6217)

(was,5912)

(in,5751)

(had,4502)

scala>