隔壁大爷说hadoop,scala,spark搭建包教包会！

不喝纯牛奶！

于 2024-04-25 16:35:10 发布

阅读量771

点赞数 14

文章标签： hadoop scala spark

本文链接：https://blog.csdn.net/sH3252517202/article/details/138191019

版权

准备工作：上传三个所需软件包

三台电脑配好IP

一、搭建hadoop

1.在 Master 节点上安装 Hadoop

*解压

tar -zxvf /opt/software/hadoop-2.7.1.tar.gz -C /usr/local/src

mv /usr/local/src/hadoop-2.7.1 /usr/local/src/hadoop

2.在文件末尾添加以下配置信息

[root@master ~]# vi /etc/profile

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

export PATH=$PATH:$JAVA_HOME/bin

ExportHADOOP_HOME=/usr/local/src/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

export PATH=$PATH:$JAVA_HOME/bin

export HADOOP_HOME=/usr/local/src/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

使配置的 Hadoop 的环境变量生效

[root@master ~]# su - hadoop

[hadoop@master ~]# source /etc/profile

[hadoop@master ~]# exit

执行以下命令修改 hadoop-env.sh 配置文件

[root@master ~]# cd /usr/local/src/hadoop/etc/hadoop/

在文件末尾添加以下配置信息

[root@masterhadoop]#vi hadoop-env.sh

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

配置 hdfs-site.xml 文件参数

执行以下命令修改 hdfs-site.xml 配置文件。

[root@master hadoop]# vi hdfs-site.xml

#在文件中<configuration>和</configuration>一对标签之间追加以下配置信息

<name>dfs.namenode.name.dir</name>

<value>file:/usr/local/src/hadoop/dfs/name</value>

</property>

<name>dfs.datanode.data.dir</name>

<value>file:/usr/local/src/hadoop/dfs/data</value>

</property>

<name>dfs.replication</name>

</property>

</configuration>

配置 core-site.xml 文件参数

执行以下命令修改 core-site.xml 配置文件。

[root@master hadoop]# vi core-site.xml

#在文件中<configuration>和</configuration>一对标签之间追加以下配置信息

<name>fs.defaultFS</name>

</property>

<name>io.file.buffer.size</name>

</property>

<name>hadoop.tmp.dir</name>

<value>file:/usr/local/src/hadoop/tmp</value>

</property>

</configuration>

配置 mapred-site.xml

在“/usr/local/src/hadoop/etc/hadoop”目录下有一个 mapred-site.xml.template，

需要修改文件名称，把它重命名为 mapred-site.xml，然后把 mapred-site.xml 文件配置成

如下内容。

执行以下命令修改 mapred-site.xml 配置文件。

#确保在该路径下执行此命令

[root@master hadoop]# cd /usr/local/src/hadoop/etc/hadoop

[root@master hadoop]# cp mapred-site.xml.template mapred-site.xml

[root@master hadoop]# vi mapred-site.xml

#在文件中<configuration>和</configuration>一对标签之间追加以下配置信息

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

<value>master:10020</value>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>master:19888</value>

</property>

</configuration>

配置 yarn-site.xml

执行以下命令修改 yarn-site.xml 配置文件。

[root@master hadoop]# vi yarn-site.xml

#在文件中<configuration>和</configuration>一对标签之间追加以下配置信息

<name>yarn.resourcemanager.address</name>

<value>master:8032</value>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

<value>master:8030</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address</name>

<value>master:8031</value>

</property>

<name>yarn.resourcemanager.admin.address</name>

<value>master:8033</value>

</property>

<name>yarn.resourcemanager.webapp.address</name>

<value>master:8088</value>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

</configuration>

配置 masters 文件

执行以下命令修改 masters 配置文件。

#加入以下配置信息

[root@master hadoop]# vi masters

master 主机 IP 地址

配置 slaves 文件

删除 localhost，加入以下配置信息

[root@master hadoop]# vi slaves

slave1 主机 IP 地址

slave2 主机 IP 地址

新建目录

执行以下命令新建/usr/local/src/hadoop/tmp、/usr/local/src/hadoop/dfs/name、

/usr/local/src/hadoop/dfs/data 三个目录。

[root@master hadoop]# mkdir /usr/local/src/hadoop/tmp

[root@master hadoop]# mkdir /usr/local/src/hadoop/dfs/name -p

[root@master hadoop]# mkdir /usr/local/src/hadoop/dfs/data -p

修改目录权限

执行以下命令修改/usr/local/src/hadoop 目录的权限。

[root@master hadoop]# chown -R hadoop:hadoop /usr/local/src/hadoop/

同步配置文件到 Slave 节点

上述配置文件全部配置完成以后，需要执行以下命令把 Master 节点上的

“/usr/local/src/hadoop”文件夹复制到各个 Slave 节点上，并修改文件夹访问权限。

（1）将 Master 上的 Hadoop 安装文件同步到 slave1、slave2。

[root@master hadoop]#cd

[root@master ~]# scp -r /usr/local/src/hadoop/ root@slave1:/usr/local/src/

[root@master ~]# scp -r /usr/local/src/hadoop/ root@slave2:/usr/local/src/

在每个 Slave 节点上配置 Hadoop 的环境变量。

注意:若 slave1,slave2 在/usr/local/src/目录下 jdk1.8.0_152 文件,需返回

安装好 Java 环境

[root@slave1~]# vi /etc/profile #文件末尾添加

[root@slave2~]# vi /etc/profile #文件末尾添加

# set java environment

# JAVA_HOME 指向 JAVA 安装目录

export JAVA_HOME=/usr/local/src/jdk1.8.0_152

# 将 JAVA 安装目录加入 PATH 路径

export PATH=$PATH:$JAVA_HOME/bin

# set hadoop environment

export HADOOP_HOME=/usr/local/src/hadoop

export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

（3）在每个 Slave 节点上修改/usr/local/src/hadoop 目录的权限。

[root@slave1~]# chown -R hadoop:hadoop /usr/local/src/hadoop/

[root@slave2~]# chown -R hadoop:hadoop /usr/local/src/hadoop/

（4）在每个 Slave 节点上切换到 hadoop 用户。

[root@slave1 ~]#su - hadoop

[root@slave2 ~]#su - hadoop

（5）使每个 Slave 节点上配置的 Hadoop 的环境变量生效。

[hadoop@slave1~]# source /etc/profile

[hadoop@slave2~]# source /etc/profile

NameNode格式化

执行如下命令，格式化 NameNode

[root@master ~]# su – hadoop

[hadoop@master ~]# cd /usr/local/src/hadoop/

[hadoop@master hadoop]$ bin/hdfs namenode –format

执行如下命令，启动 NameNode：

[hadoop@master hadoop]$ hadoop-daemon.sh start namenode

查看 Java 进程

[hadoop@master hadoop]$ jps

步骤一：slave 启动 DataNode

执行如下命令，启动 DataNode：

[hadoop@slave1 hadoop]$ hadoop-daemon.sh start datanode

starting datanode, logging to /opt/module/hadoop2.7.1/logs/hadoop-hadoop-datanode-master.out

[hadoop@slave2 hadoop]$ hadoop-daemon.sh start datanode

starting datanode, logging to /opt/module/hadoop2.7.1/logs/hadoop-hadoop-datanode-master.out

[hadoop@slave1 hadoop]$ jps

3557 DataNode

3725 Jps

[hadoop@slave2 hadoop]$ jps

3557 DataNode

3725 Jps

1.4.2.2. 步骤二：启动 SecondaryNameNode

执行如下命令，启动 SecondaryNameNode：

[hadoop@master hadoop]$ hadoop-daemon.sh start secondarynamenode

starting secondarynamenode, logging to /opt/module/hadoop2.7.1/logs/hadoop-hadoop-secondarynamenode-master.out

[hadoop@master hadoop]$ jps

34257 NameNode

34449 SecondaryNameNode

34494 Jps

查看到有 NameNode 和 SecondaryNameNode 两个进程，就表明 HDFS 启动成功。

1.4.2.3. 步骤三：查看 HDFS 数据存放位置：

执行如下命令，查看 Hadoop 工作目录：

[hadoop@master hadoop]$ ll dfs/

总用量 0

drwx------ 3 hadoop hadoop 21 8 月 14 15:26 data

drwxr-xr-x 3 hadoop hadoop 40 8 月 14 14:57 name

[hadoop@master hadoop]$ ll ./tmp/dfs

总用量 0

drwxrwxr-x. 3 hadoop hadoop 21 5 月 2 16:34 namesecondary

查看 HDFS 的报告

[hadoop@master sbin]$ hdfs dfsadmin -report

用浏览器查看节点状态

在浏览器的地址栏输入http://master:50070，进入页面可以查看NameNode和DataNode

二、搭建Spark

1.安装spark并解压

tar -zxf spark-3.2.1-bin-hadoop2.7.tgz -C /usr/local/

2.进入解压目录下，复制文件并重命名
[root@master local]# cd spark-3.2.1-bin-hadoop2.7/conf/
[root@master conf]# cp spark-env.sh.template spark-env.sh
3.修改文件参数

vi spark-env.sh

底部插入

export JAVA_HOME=/usr/local/src/jdk1.8.0_152
export HADOOP_HOME=/usr/local/src/hadoop
export HADOOP_CONF_DIR=/usr/local/src/hadoop/etc/hadoop
export SPARK_MASTER_IP=master
export SPARK_LOCAL_IP=master

4.切换目录启动spark集群

三、搭建scala

1.安装scala并解压

tar -zxf scala-2.11.8.tgz -C /usr/local/

2.配置scala环境变量

vi /etc/profile

底部加入2行

export SCALA_HOME=/usr/local/scala-2.11.8
export PATH=$PATH:$SCALA_HOME/bin

3.激活更新

source /etc/profile

不喝纯牛奶！

关注

14
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
隔壁大爷说hadoop,scala,spark搭建包教包会！

执行如下命令，格式化 NameNode。2.进入解压目录下，复制文件并重命名。2.在文件末尾添加以下配置信息。需要修改文件名称，把它重命名为。节点上，并修改文件夹访问权限。4.切换目录启动spark集群。一对标签之间追加以下配置信息。一对标签之间追加以下配置信息。一对标签之间追加以下配置信息。一对标签之间追加以下配置信息。2.配置scala环境变量。在文件末尾添加以下配置信息。1.安装scala并解压。确保在该路径下执行此命令。1.安装spark并解压。用浏览器查看节点状态。在浏览器的地址栏输入。
复制链接

扫一扫