hadoop集群，spark集群搭建

最新推荐文章于 2024-07-13 09:47:47 发布

Lesise

最新推荐文章于 2024-07-13 09:47:47 发布

阅读量336

点赞数

分类专栏：大数据文章标签：大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40823910/article/details/91038774

版权

大数据专栏收录该内容

1 篇文章 0 订阅

订阅专栏

大数据环境搭建

目录

1. 环境准备. 2

1.1 准备目录(以下涉及的安装路径按照此路径) 2

1.2 准备资源. 2

2. 安装hadoop集群.. 3

2.1 修改机器名称（三台）. 3

2.2 修改/etc/hosts文件（三台）. 4

2.3 三台机器实现免密登录.. 5

2.3.1 三台机器均执行以下操作，生成公私钥.. 5

2.3.2 本机与另外两台机器共享公私钥（需要输入登录密码）. 6

2.3.3 验证免密登录.. 7

2.4 安装hadoop集群（三台均要）. 7

2.4.1 新建几个目录.. 7

2.4.2 修改hadoop配置文件.. 8

2.5 启动hadoop 13

2.5.1 在nadeNode执行初始化.. 13

2.5.2 在namenode上执行启动命令.. 15

2.6 测试.. 16

3. 安装scala(三台机器操作一致) 17

3.1 配置环境变量.. 17

3.2 验证scala 18

4. spark安装配置（三台均要）. 18

4.1 环境变量配置.. 18

4.2 配置conf目录下的文件.. 19

4.2.1 新建spark-env.sh文件.. 19

4.2.2 新建salves文件.. 20

4.3 启动和测试spark集群.. 20

4.3.1 启动spark 20

4.3.2 测试.. 21

4.3.3 运行spark提供的计算圆周率.. 21

1.环境准备

1. 准备目录(以下涉及的安装路径按照此路径)

/ u01/micsdev/software 软件源文件

命令如下：

mkdir /u01/micsdev

mkdir /u01/micsdev/software

1. 准备资源

（注：

1.准备三台物理机，一主二从，主机IP为10.33.21.120,命名Master;一从IP为10.32.18.11，命名Slaver1;另一从IP为10.32.151.2，命名Slaver2;

2.jdk1.8已经安装，路径为：/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64/jre

3.资源下载环境：http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.8.0/hadoop-2.8.0.tar.gz

https://www.scala-lang.org/download/

http://spark.apache.org/downloads.html）

通过ftp上传需要的软件文件到/u01/micsdev/software目录

并通过tar -xvf xxx.tar.gz进行解压

2.安装hadoop集群

2.1修改机器名称（三台）

2.2修改/etc/hosts文件(三台机器都要)

vi /etc/hosts （增加红框中内容）

配置为测试三台机器能否ping得通

2.3 三台机器实现免密登录

2.3.1三台机器均执行以下操作，生成公私钥

2.3.2本机与另外两台机器共享公私钥（需要输入登录密码）

2.3.3 验证免密登录

2.4安装hadoop集群（三台机器操作一致，三台机器操作都如下）

2.4.1新建几个目录

mkdir /root/hadoop

mkdir /root/hadoop/tmp

mkdir /root/hadoop/var

mkdir /root/hadoop/dfs

mkdir /root/hadoop/dfs/name

mkdir /root/hadoop/dfs/data

2.4.2修改hadoop配置文件

切换到/u01/micsdev/software/hadoop-2.8.0/etc/Hadoop 目录下，修改以下文件

不存在的文件直接从template中复制改名，如下

2.4.2.1mapred-env.sh修改java_home指向安装路径

2.4.2.2 hadoop-env.sh修改java_home为具体安装路径，并加hadoop_prefix指向其安装路径

2.4.2.3 core-site.xml增加以下配置（Master为主机机器名）

2.4.2.4 yarn-site.xml增加以下配置

2.4.2.5 hdfs-site.xml增加以下配置，表示备份为2

2.4.2.6 mapred-site.xml增加以下配置，默认yarn为资源管理器

2.4.2.7 slaves 中放入二从机器名

2.5 启动hadoop

2.5.1在nameNode执行初始化

因为Master是namenode，Slaver1和Slaver2都是datanode，所以只需要对Master进行初始化操作，也就是对hdfs进行格式化。

进入到Master这台机器的/u01/micsdev/software/hadoop-2.8.0/bin目录，也就是执行命令：cd /u01/micsdev/software/hadoop-2.8.0/bin

初始化命令：./hadoop namenode –format (每次重启需要执行一次)

格式化成功后，可以在看到在/root/hadoop/dfs/name/目录多了一个current目录，而且该目录内有一系列文件

2.5.2在namenode上执行启动命令

进入到Master这台机器的/u01/micsdev/software/hadoop-2.8.0/sbin目录，也就是执行命令：cd /u01/micsdev/software/hadoop-2.8.0/sbin

1.启动命令：

./start-all.sh

单独启动

2.6 测试

http://10.33.21.120:50070(Master机ip)

http://10.33.21.120:8088

3.安装scala （三台机器操作一致）

3.1配置环境变量

vi /etc/profile

path加入最小红框中内容

3.2 验证scala(有显示版本号则成功)

4.Spark安装配置（三台机器的操作一致）

4.1 环境变量配置

vi /etc/profile

增加红框中内容

4.2 配置conf目录下的文件

进入到/u01/micsdev/software/spark-2.4.3-bin-hadoop2.7/conf目录下，执行命令

cd /u01/micsdev/software/spark-2.4.3-bin-hadoop2.7/conf

4.2.1 新建spark-env.sh文件

cp spark-env.sh.template spark-env.sh

vi spark-env.sh

加入以下内容

4.2.2 新建slaves文件

cp slaves.template slaves

vi slaves

加入红框中内容

4.3启动和测试Spark集群

4.3.1启动spark

因为spark是依赖于hadoop提供的分布式文件系统的，所以在启动spark之前，先确保hadoop在正常运行。

在hadoop正常运行的情况下，在Master（也就是hadoop的namenode，spark的marster节点）上执行命令：

cd /u01/micsdev/software/spark-2.4.3-bin-hadoop2.7/sbin

执行启动脚本：

./start-all.sh

4.3.2测试

输入http://10.33.21.120:8888/（以下表示集群启动成功）

4.3.3 运行Spark提供的计算圆周率的示例程序

第一步，进入到Spark的根目录：cd /u01/micsdev/software/spark-2.4.3-bin-hadoop2.7

第二步，调用Spark自带的计算圆周率的Demo，执行下面的命令：

./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local examples/jars/spark-examples_2.11-2.4.3.jar

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Lesise CSDN认证博客专家 CSDN认证企业博客

码龄7年

53: 原创

22万+: 周排名

194万+: 总排名

6万+: 访问

: 等级

1027: 积分

1922: 粉丝

13: 获赞

26: 评论

148: 收藏

私信

关注

热门文章

分类专栏

工作流activiti7 7篇
redis 10篇
RocketMQ 3篇
nginx 2篇
docker 6篇
JUC 11篇
Jenkins 3篇
k8s 3篇
linux 1篇
java 4篇
springBoot 2篇
大数据 1篇

最新评论

docker---java上传镜像到Harbor仓库
Marksmanbat: 博主，Controller接口的几个入参长啥样呀？
docker---java上传镜像到Harbor仓库
Marksmanbat: 有人遇到这个问题吗？[code=java] com.github.dockerjava.api.exception.NotFoundException: page not found at com.github.dockerjava.jaxrs.filter.ResponseStatusExceptionFilter.filter(ResponseStatusExceptionFilter.java:53) ~[docker-java-3.1.5.jar:na] at org.glassfish.jersey.client.ClientFilteringStages$ResponseFilterStage.apply(ClientFilteringStages.java:172) ~[jersey-client-2.35.jar:na] [/code]
docker---java上传镜像到Harbor仓库
qwertyuiop_i: 你harbor是不是用的https的？我之前用https的也一样，换成http的就可以了
SpringBoot+Druid配置多数据源（注解切换）
本参: aop没有织入呢？
docker---java上传镜像到Harbor仓库
小杰68: 请教楼主, Harbor登陆地址指的是docker命令登陆地址吗? 使用 docker命令登陆地址并用harbor用户名和密码成功登陆并推送,但使用docker-java 推送镜像出现Could not push image: unauthorized: incorrect username or password问题是哪里还需要配置吗?

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。