java spark 开发环境搭建_Linux下Spark开发环境搭建

本文详细介绍了在Linux环境下,如何搭建一个包含Java、Hadoop、Scala、Python、Spark、Zookeeper、Hive和Kafka的大数据集群。从安装各个组件到配置集群,再到启动和验证服务,每个步骤都清晰呈现,旨在帮助读者掌握大数据环境的搭建过程。
摘要由CSDN通过智能技术生成

开发环境总体版本信息如下:

1、Linux:CentOS 6.8

2、Java版本:jdk-8u172-linux-x64.tar.gz

3、Hadoop版本:hadoop-3.1.0.tar.gz

4、scala版本:scala-2.12.6.tgz

5、Python版本:Python-3.6.5.tgz

6、spark版本:spark-2.3.0-bin-hadoop2.7.tgz

7、zookeeper版本:zookeeper-3.4.10.tar.gz

8、hive版本:

9、kafka版本:

10、服务器集群:192.168.0.110(master),192.168.0.111(slave1),192.168.0.112(slave2)

一、java的安装

1、上传jdk安装包到/usr/local/lib目录下,并解压缩

1fc29d54a24ae1eae2924698af2e927c.png

2、把解压的文件夹复制到另外两台机子

03f880d4949e174b8769c204fc27fce0.png

3、三台服务器分别修改bigdata用户的环境变量

963734a39776c205512dfba058bd09c4.png

cb2b32c09957ba6e83a9dd9ae71bed81.png

4、使配置生效并验证

53c654e15084751baccaab00b6124e5a.png

二、hadoop的安装

1、bigdata用户家目录下创建目录bigdata,上传hadoop安装包并解压

839f6fe4c7fa0ebb7e635a454956910d.png

2、进入hadoop配置文件目录,修改hadoop配置

7cb65a8d6d51ba8b18f3274027ea7b24.png

3、修改core-site.xml,添加红色方框的内容

38a3ff7c2ef98554564909dd311f033e.png

4、修改hdfs-site.xml,并创建对应的目录

add40a9395a8147f40ca619bab6eb34a.png

e9b85d54efb3e60574e4e4f6dc0ba6bf.png

5、修改yarn-site.xml

224f501aee80779b8bfedd0f283206bd.png

6、修改workers(老版本为slaves)

908bfea831534d3a20afa075448f0416.png

7、修改hadoop-env.sh,增加JAVA_HOME

f58ad1e27aeede6a985d47c9498c5ddf.png

8、把master上配置好的hadoop分发到每一个slave上

b023d42bacfe17ec77b4c15a49a13e0c.png

9、只需在master上bigdata用户下配置环境变量

382f0d2e209efbfbba520812ff8d2d68.png

10、使环境变量生效并检查

8657c8b7a9e300bb24c9822298572417.png

11、首次运行hdfs,需要先格式化hdfs【 hdfs namenode -format 】,然后启动hdfs【start-dfs.sh】

b9872ac237174c037d59c03d3465d22c.png

12、可访问http://192.168.0.110:9870【192.168.0.110为master的ip地址,老版本hadoop的端口为50070】看下是否部署成功;如需停止hdfs,使用【stop-dfs.sh】

1c990ccf2dbebf98677df76caea6467b.png

13、也可输入名jps,查看是否有以下进程

a607b5669258b4355799195843e12f5c.png

14、启动yarn【start-yarn.sh】

133b064a49a10cb5b396be5c4e69b154.png

15、访问http://192.168.0.110:8088/cluster,查看yarn是否正常工作,停止yarn使用【stop-yarn.sh】

15b77c4cd93731f22d395b7d82c271e0.png

16、也可输入名jps,查看是否有以下进程

8a953501e7bf8ef8c88fa1d02a382d97.png

综上,hadoop集群安装完毕!

三、scala的安装

1、切换到root用户下,下载scala并上传到/usr/local/lib目录下,然后解压

5b3fc1cc6fbd3d2e1d439b19ae198008.png

2、把解压后的文件分发到slave1和slave2

scp -r scala-2.12.6 root@slave1:/usr/local/lib

scp -r scala-2.12.6 root@slave2:/usr/local/lib

3、分别在三台服务器上修改bigdata用户的环境变量

d5ec30d1dcb8b342aac11c3d3ddbbea2.png

4、验证环境变量是否生效

7703b14a36ed2a2f08b39e7fa160fc5d.png

5、运行scala命令验证是否安装成功,并按ctrl+z退出

06dfe1622011ae62febc76851c73a048.png

四、python的安装

1、在集群上运行pyspark,需要先安装zlib和gcc相关的软件包

235e1ad1da8a7a680ca711787f0a4924.png

yum -y install gcc*

2、下载python安装包,并上传,然后解压

7b35391bff3045b875cdd81dacef2819.png

3、进入/usr/local/lib/,修改Modules/Setup.dist【老版本是Setup】,找到红色一行,并把注释去掉

e64a2c1075d579e52d4b72a8e436bef7.png

51a4ad03c9f8ddf44b45619fa674fa0a.png

4、执行./configure

5、make

6、make install

7、查看系统原有python版本,并重命名

fe746356edbfcc4ccbb3103dce2ee04b.png

8、修改/usr/bin/yum

2da8b0eaf3e8f0782cecc08679ab6902.png

9、重新建立python的软连接

0fdb05788f58ef83bfa5d619658c56ab.png

7、执行python命令,检查是否安装好

f66315d385a453645171027f04440dc5.png

五、spark的安装

1、下载并上传spark安装文件到bigdata用户家目录下的bigdata目录下,然后解压

3d53f1ee5357b1c9085fc7a19ac8f1ea.png

2、配置slaves

bf2b13e0a4c2559c0805c48f88a990d4.png

a0d8c1286aa5557b0da9e03091eeadb7.png

3、配置spark-env.sh

989ddcfc3a52ef300abed8519f458bbe.png

713034625b3d54004732b77a2e09ab7f.png

4、把配置好的spark分发slave1和slave2上面

scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave1:~/bigdata

scp -r ~/bigdata/spark-2.3.0-bin-hadoop2.7 bigdata@slave2:~/bigdata

5、在master上配置环境变量

75683a865b422f7ac116fe2dbf44e441.png

source ~/.bash_profile

6、启动spark

420906a7c7923471fface4d235b5142b.png

7、确认spark已经启动【jps命令,或者访问http://192.168.0.110:8080】

53c5c501f84e261baf84be731fd4ab9a.png

a2d69aba848e99e639eab3b980d3fab3.png

8、测试spark代码【ctrl+z退出】

b6cda04b8809b47ef54ea1ccb24bc6e8.png

六、zookeeper的安装

1、下载并上传zookeeper文件,然后解压

31ec698397d1688edb49406412c866f1.png

2、修改配置文件

06048fa9b1a85103b71a67f943f98828.png

1de28949a2b85f1eab81bcdba498a85c.png

3、创建配置文件配置的目录

ed93cee2ba419a168e397568a4795411.png

4、将配置好的zookeeper分发到slave1和slave2

76e4fc0965e82e39eb565753caca273b.png

5、分别在3台服务器的~/bigdata/zookeeper/data目录中新增文件myid并修改

ac2e4903e55591bc7cbf6704881beeba.png

master上myid的内容为:0

slave1上myid的内容为:1

slave2上myid的内容为:2

6、分别到3台服务器中启动节点zk服务

208617877cc90d213c2b293f503f0baa.png

7、查看每一个服务器上的zk的状态

7de0ae22f6341f7e99bd579f75251bd6.png

6e9a1475079adc77da412af796c74236.png

七、hive的安装

安装:yum install -y  mysql-server

启动:service mysqld start

修改root用户密码:mysqladmin -u root password 'root'

创建数据库hive并授权:

daf863508e100c08327834e851582067.png

2、下载并上传hive安装包,然后解压

05b3999ca8db07431cd5acc2ed10836d.png

3、进入配置目录【/home/bigdata/bigdata/apache-hive-2.3.3-bin/conf】,修改配置文件hive-site.xml

96083c6d96f292474b7417e5decafdc3.png

4cc4be77de138b104e6778458676d622.png

4、编辑hive-env.sh

20c5b4e4615cbdd5ddb043bbaf9aeb4e.png

b939f6c1fd0277880c9d402023acf1a3.png

5、下载mysql的jdbc驱动mysql-connector-java-5.1.44-bin.jar,上传/home/bigdata/bigdata/apache-hive-2.3.3-bin/lib

33ba5ca1f0f9f802954244fbf763d895.png

6、配置master的环境变量

237d4f20d1f6c5ccbdbb32d36ff3a004.png

source ~/.bash_profile

7、创建hive-site.xml里面配置的目录并授权

c283e90ee4de694b4f9b58c3e07e31ab.png

8、指定hive数据库类型并初始化

2a7969a7d4c02a8fa1fdb6b763ddbdfd.png

9、验证hive的mysql数据库是否安装成功【hive数据库下面是否有表】

5b58f342b5a712239268cde5f1de57c9.png

10、运行hive前首先要确保meta store服务已经启动:先创建hive运行日志目录logs,再运行HIVE

023a12f62bbc73ee1c491a4b74fdca20.png

验证:

abed54a1f30c323e71aa896747aa74bb.png

运行HIVE

0a92ac00429064ebf0474b21caf4afe7.png

八、kafka的安装

1、下载kafka并上传,然后解压

2f117a7d98234e039aebac735af449f5.png

2、创建日志目录,修改配置文件

mkdir /home/bigdata/bigdata/kafka-logs-new

ef75ab104d678354e4809497f1d3552e.png

68fac152c011a40ad71103e004f671bd.png

fb20ced1e4270b4953f479a0de0888e9.png

3、将kafka分发到slave1 和 slave2

64444ae7d3a2a07fbcb34a59f072e512.png

4、分别修改slave1和slave2上面的server.properties文件

slave1:broker.id=1

slave2:broker.id=2

5、分别在三台服务器上启动broker server

cca51709f19d2cfce833ea52ec47e960.png

nohup bin/kafka-server-start.sh config/server.properties>~/bigdata/kafka_2.12-1.1.0/logs/server.log 2>&1 &

6、在master上创建topic

8e20c7dd94787ac1e49bbf4b2d3d4779.png

7、查看topic

558724739564571551b032003ad2b0f1.png

8、启动producer发送消息

7a35938872e2feec13dc0a76846bebf4.png

9、启动consumer消费消息

b7a881ff195dfd70676cbe930a0b5b1a.png

10、效果如下

feacf552b563197545bc17d4e63ba515.png0b1331709591d260c1c78e86d0c51c18.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值