hadoop集群,spark集群搭建

大数据环境搭建

目录

1. 环境准备. 2

1.1  准备目录(以下涉及的安装路径按照此路径) 2

1.2  准备资源. 2

2. 安装hadoop集群.. 3

2.1  修改机器名称(三台. 3

2.2  修改/etc/hosts文件三台. 4

2.3  三台机器实现免密登录.. 5

2.3.1 三台机器均执行以下操作,生成公私.. 5

2.3.2 本机与另外两台机器共享公私钥(需要输入登录密码. 6

2.3.3 验证免密登录.. 7

2.4  安装hadoop集群三台. 7

2.4.1 新建几个目录.. 7

2.4.2 修改hadoop配置文件.. 8

2.5  启动hadoop 13

2.5.1 在nadeNode执行初始化.. 13

2.5.2 在namenode执行启动命令.. 15

2.6  测试.. 16

3. 安装scala(三台机器操作一致) 17

3.1  配置环境变量.. 17

3.2  验证scala 18

4. spark安装配置(三台均要). 18

4.1  环境变量配置.. 18

4.2  配置conf目录下的文件.. 19

4.2.1 新建spark-env.sh文件.. 19

4.2.2 新建salves文件.. 20

4.3  启动和测试spark集群.. 20

4.3.1 启动spark 20

4.3.2 测试.. 21

4.3.3 运行spark提供的计算圆周率.. 21

 

 

 

 

1.环境准备

    1. 准备目录(以下涉及的安装路径按照此路径)

/ u01/micsdev/software        软件源文件

命令如下:

mkdir /u01/micsdev

mkdir /u01/micsdev/software

 

    1. 准备资源

(注:

1.准备三台物理机,一主二从,主机IP为10.33.21.120,命名Master;一从IP为10.32.18.11,命名Slaver1;另一从IP为10.32.151.2,命名Slaver2;

2.jdk1.8已经安装,路径为:/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64/jre

3.资源下载环境:http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.8.0/hadoop-2.8.0.tar.gz

https://www.scala-lang.org/download/

http://spark.apache.org/downloads.html

 

通过ftp上传需要的软件文件到/u01/micsdev/software目录

并通过tar -xvf  xxx.tar.gz进行解压

 

2.安装hadoop集群

2.1修改机器名称(三台)

 

2.2修改/etc/hosts文件(三台机器都要)

     vi /etc/hosts (增加红框中内容)

 

配置为测试三台机器能否ping得通

 

2.3 三台机器实现免密登录

2.3.1三台机器均执行以下操作,生成公私钥

2.3.2本机与另外两台机器共享公私钥(需要输入登录密码)

 

 

2.3.3 验证免密登录

2.4安装hadoop集群(三台机器操作一致,三台机器操作都如下)

2.4.1新建几个目录

mkdir  /root/hadoop

mkdir  /root/hadoop/tmp

mkdir  /root/hadoop/var

mkdir  /root/hadoop/dfs

mkdir  /root/hadoop/dfs/name

mkdir  /root/hadoop/dfs/data

2.4.2修改hadoop配置文件

切换到/u01/micsdev/software/hadoop-2.8.0/etc/Hadoop 目录下,修改以下文件

不存在的文件直接从template中复制改名,如下

2.4.2.1mapred-env.sh修改java_home指向安装路径

2.4.2.2 hadoop-env.sh修改java_home为具体安装路径,并加hadoop_prefix指向其安装路径

 

2.4.2.3 core-site.xml增加以下配置(Master为主机机器名)

2.4.2.4 yarn-site.xml增加以下配置

2.4.2.5 hdfs-site.xml增加以下配置,表示备份为2

2.4.2.6 mapred-site.xml增加以下配置,默认yarn为资源管理器

2.4.2.7 slaves 中放入二从机器名

2.5 启动hadoop

2.5.1在nameNode执行初始化

因为Master是namenode,Slaver1和Slaver2都是datanode,所以只需要对Master进行初始化操作,也就是对hdfs进行格式化。

进入到Master这台机器的/u01/micsdev/software/hadoop-2.8.0/bin目录,也就是执行命令cd  /u01/micsdev/software/hadoop-2.8.0/bin

初始化命令:./hadoop namenode –format (每次重启需要执行一次)

 

 

格式化成功后,可以在看到在/root/hadoop/dfs/name/目录多了一个current目录,而且该目录内有一系列文件

2.5.2在namenode上执行启动命令

进入到Master这台机器的/u01/micsdev/software/hadoop-2.8.0/sbin目录,也就是执行命令cd  /u01/micsdev/software/hadoop-2.8.0/sbin

1.启动命令:

./start-all.sh

 

  1. 单独启动

2.6 测试

http://10.33.21.120:50070(Master机ip)

http://10.33.21.120:8088

3.安装scala   (三台机器操作一致)  

3.1配置环境变量

vi   /etc/profile

path加入最小红框中内容

3.2 验证scala(有显示版本号则成功)

4.Spark安装配置(三台机器的操作一致)

4.1 环境变量配置

vi   /etc/profile

增加红框中内容

4.2 配置conf目录下的文件

进入到/u01/micsdev/software/spark-2.4.3-bin-hadoop2.7/conf目录下,执行命令

cd /u01/micsdev/software/spark-2.4.3-bin-hadoop2.7/conf

4.2.1 新建spark-env.sh文件

cp    spark-env.sh.template   spark-env.sh

vi spark-env.sh

加入以下内容

4.2.2 新建slaves文件

cp    slaves.template   slaves

vi slaves

加入红框中内容

4.3启动和测试Spark集群

4.3.1启动spark

 因为spark是依赖于hadoop提供的分布式文件系统的,所以在启动spark之前,先确保hadoop在正常运行。

在hadoop正常运行的情况下,在Master(也就是hadoop的namenode,spark的marster节点)上执行命令:

 

   cd   /u01/micsdev/software/spark-2.4.3-bin-hadoop2.7/sbin

 

    执行启动脚本:

 

  ./start-all.sh

4.3.2测试

输入http://10.33.21.120:8888/(以下表示集群启动成功)

4.3.3  运行Spark提供的计算圆周率的示例程序

第一步,进入到Spark的根目录cd  /u01/micsdev/software/spark-2.4.3-bin-hadoop2.7

第二步,调用Spark自带的计算圆周率的Demo,执行下面的命令:

./bin/spark-submit  --class  org.apache.spark.examples.SparkPi  --master local   examples/jars/spark-examples_2.11-2.4.3.jar

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值