Hadoop 3.0环境搭建-HDFS&&MapReduce

最新推荐文章于 2024-04-13 08:04:04 发布

乱画十八笔

最新推荐文章于 2024-04-13 08:04:04 发布

阅读量225

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_45335413/article/details/108007907

版权

大数据专栏收录该内容

20 篇文章 0 订阅

订阅专栏

Hadoop目录结构

在这里插入图片描述

准备工作：

1、安装Linux、关闭防火墙、配置主机名、安装JDK
2、解压 tar -zxvf 包名
3、设置环境变量：

vi ~/.bash_profile


HADOOP_HOME=/root/training/hadoop-3.1.2
export HADOOP_HOME

PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH
	
#注意：伪分布模式和全分布模式，需要设置以下环境变量（运行的用户）：
export HDFS_DATANODE_USER=root
export HDFS_DATANODE_SECURE_USER=root
export HDFS_NAMENODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

生效环境变量：

source ~/.bash_profile

安装模式：

一、本地安装

注意：本地安装没有HDFS、也没有Yarn只能测试MapReduce程序（本质：就是一个Java程序）
只需要配置hadoop-env.sh Java 环境就行

export JAVA_HOME=/root/training/jdk1.8.0_181

WordCount例子在hadoop-3.1.2/share/hadoop/mapreduce目录下
例如执行Wordcount程序：

hadoop jar hadoop-mapreduce-examples-3.1.2.jar wordcount /temp/input/ /temp/output/wc

在这里插入图片描述

二、伪分布安装

特点：在单机上，模拟一个分布式的环境，具备Hadoop的所有的功能
HDFS：NameNode主节点、 DataNode从节点、SecondaryNameNode
Yarn：ResourceManager主节点、NodeManager从节点

(1)、配置HDFS

1、在Hadoop-env.sh 配置Java_home 的目录

在这里插入图片描述
修改成下面的路径，在第25行

export JAVA_HOME=/usr/local/java/jdk1.8.0_251

2、配置hdfs-site.xml 文件

<!-- 配置数据块的冗余度,默认值为3 --> 
<!-- 冗余度和数据节点个数保持一致，不超过3 --> 
<property>
	<name>dfs.replication</name>
	<value>1</value>
</property>
<!--是否开启hdfs权限检查 --> 
<!--默认是true,要想启动成功，必须配置ssh免密登录，可以改成false，-->
<!--使用密码进行登录 --> 
<property>
	<name>dfs.permissions</name>
	<value>false</value>
</property>

3、配置core-site.xml 文件

<!--配置hdfs的主节点的地址，就是NameNode的地址 --> 
<!--9000是RPC通信端口 --> 
<property>
	<name>fs.defaultFS</name>
	<value>hdfs://192.168.92.130:9000</value>
</property>

<!--hdfs的数据块和元信息保存在Linux系统的位置 --> 
<!--默认是Linux的tmp目录，需要修改 --> 
<property>
	<name>hadoop.tmp.dir</name>
	<value>/usr/local/hadoop-2.7.7/temp</value>
</property>

(2)、配置Yarn

1、配置mapred-site.xml

<!--MR程序运行的容器或者框架 --> 
<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>

<property>
	<name>yarn.app.mapreduce.am.env</name>
	<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>				
			
<property>
	<name>mapreduce.map.env</name>
	<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>				
			
<property>
	<name>mapreduce.reduce.env</name>
	<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

2、yarn-site.xml 文件

<!--yarn的主节点--> 
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>192.168.92.130</value>
</property>

<!--NodeManager执行任务的方式是Shuffle洗牌--> 
<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>

(3)对NameNode进行格式化

需要在刚刚我们创建的tmp（保存元信息/usr/local/hadoop-2.7.7/temp）目录进行格式化
命令如下：

hdfs namenode -format
日志：
NFO common.Storage: Storage directory /usr/local/hadoop-2.7.7/temp/dfs/name has been successfully formatted.
表示格式化成功

（4）启动

HDFS：start-dfs.sh
Yarn :start-yarn.sh
统一的：start-all.sh
统一停止：stop-all.sh
启动之后要输入四次yes和四次密码，前提：前面权限检查改为false
停止之后要输入四次yes和四次密码
在这里插入图片描述
表示环境配置成功！
web console访问：hdfs端口：9870 、yarn端口：8088

要想不输入密码就能登录，这时我们需要配置免密码的登录：
https://blog.csdn.net/qq_45335413/article/details/107810990

三、全分布

在这里插入图片描述
全分布的节点布置如上

(1)修改每个主机为静态IP

https://blog.csdn.net/qq_45335413/article/details/108061301

(2)修改每个主机名与IP地址映射关系

vim /etc/hosts

在这里插入图片描述

(3)配置免密码登录

https://blog.csdn.net/qq_45335413/article/details/107810990
注意，免密码登录，要为每一台主机都要配置

(4)同步时间

在这里我们只需要把时间设置成一样就行。
在实际开发中，我们可以搭建一个时间服务器ntp,进行时间的同步。
不同步时间，可能出现以下问题：
1、yarn会出错
2、NodeManager执行任务会出错
在这里，我们采用这样同步时间：

root@bigdata222:~/.ssh# date
Sun Aug 23 15:50:16 CST 2020
root@bigdata222:~/.ssh# date -s 2020-08-23
Sun Aug 23 00:00:00 CST 2020   
root@bigdata222:~/.ssh# date -s 15:52
Sun Aug 23 15:52:00 CST 2020

(5)配置Hadoop的环境变量

1、上传Hadoop 3.0压缩包，并进行解压
2、vim ~/.bash_profile配置环境变量

HADOOP_HOME=/usr/local/hadoop/hadoop-3.1.2
export HADOOP_HOME

PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export PATH

export HDFS_DATANODE_USER=root
export HDFS_DATANODE_SECURE_USER=root
export HDFS_NAMENODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

注意：每个主机都要这样配置

(6)、配置HDFS

1、在Hadoop-env.sh 配置Java_home 的目录

在这里插入图片描述
修改成下面的路径，在第25行

export JAVA_HOME=/usr/local/java/jdk1.8.0_251

2、配置hdfs-site.xml 文件

<!-- 配置数据块的冗余度,默认值为3 --> 
<!-- 冗余度和数据节点个数保持一致，不超过3 --> 
<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
<!--是否开启hdfs权限检查 --> 
<!--默认是true,要想启动成功，必须配置ssh免密登录，可以改成false，-->
<!--使用密码进行登录 --> 
<property>
	<name>dfs.permissions</name>
	<value>false</value>
</property>

3、配置core-site.xml 文件

<!--配置hdfs的主节点的地址，就是NameNode的地址 --> 
<!--9000是RPC通信端口 --> 
<property>
	<name>fs.defaultFS</name>
	<value>hdfs://bigdata222:9000</value>
</property>

<!--hdfs的数据块和元信息保存在Linux系统的位置 --> 
<!--默认是Linux的tmp目录，需要修改 --> 
<property>
	<name>hadoop.tmp.dir</name>
	<value>/usr/local/hadoop-2.7.7/temp</value>
</property>

(7)、配置Yarn

1、配置mapred-site.xml

<!--MR程序运行的容器或者框架 --> 
<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>

<property>
	<name>yarn.app.mapreduce.am.env</name>
	<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>				
			
<property>
	<name>mapreduce.map.env</name>
	<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>				
			
<property>
	<name>mapreduce.reduce.env</name>
	<value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
</property>

2、yarn-site.xml 文件

<!--yarn的主节点--> 
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>bigdata222</value>
</property>

<!--NodeManager执行任务的方式是Shuffle洗牌--> 
<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>

(8)配置workers从节点

vi workers

bigdata333
bigdata444

让Hadoop知道谁是从节点

(9)对NameNode进行格式化

需要在刚刚我们创建的tmp（保存元信息/usr/local/hadoop-2.7.7/temp）目录进行格式化
命令如下：

hdfs namenode -format
日志：
NFO common.Storage: Storage directory /usr/local/hadoop-2.7.7/temp/dfs/name has been successfully formatted.
表示格式化成功

(10）把bigdata222配置好的hadoop复制到从节点上

scp -r hadoop-3.1.2/ root@bigdata333:/usr/local/hadoop
scp -r hadoop-3.1.2/ root@bigdata444:/usr/local/hadoop

注意：所有操作都在主节点上进行

(11）启动

start-all.sh

web console访问：hdfs端口：9870 、yarn端口：8088

四、HA

环境部署结构图如下：
在这里插入图片描述
FailOverController 就是发送心跳信息。每个NameNode上面都会运行一个！

一、集群的规划

Zookeeper集群：
192.168.157.112 （bigdata112）
192.168.157.113 （bigdata113）
192.168.157.114 （bigdata114）

Hadoop集群：
192.168.157.112 （bigdata112） NameNode1 ResourceManager1 Journalnode1
192.168.157.113 （bigdata113） NameNode2 ResourceManager2 Journalnode2
192.168.157.114 （bigdata114） DataNode1 NodeManager1
192.168.157.115 （bigdata115） DataNode2 NodeManager2

二、准备工作

1、安装JDK
2、配置环境变量
新增加以下两个环境变量（需要生效）

export HDFS_JOURNALNODE_USER=root
export HDFS_ZKFC_USER=root

3、配置免密码登录
4、配置主机名

三、配置Zookeeper（在192.168.157.112安装）

在主节点（bigdata112）上配置ZooKeeper
1、配置/root/training/zookeeper-3.4.6/conf/zoo.cfg文件

dataDir=/root/training/zookeeper-3.4.6/tmp

server.1=bigdata112:2888:3888
server.2=bigdata113:2888:3888
server.3=bigdata114:2888:3888

2、在/root/training/zookeeper-3.4.6/tmp目录下创建一个myid的空文件

echo 1 > /root/training/zookeeper-3.4.6/tmp/myid

3、将配置好的zookeeper拷贝到其他节点，同时修改各自的myid文件

scp -r /root/training/zookeeper-3.4.6/ bigdata113:/root/training
scp -r /root/training/zookeeper-3.4.6/ bigdata114:/root/training

四、安装Hadoop集群（在bigdata112上安装）

1、修改hadoo-env.sh

export JAVA_HOME=/root/training/jdk1.8.0_181

2、修改core-site.xml

<configuration>
	<!-- 指定hdfs的nameservice为ns1 -->
	<property>
			<name>fs.defaultFS</name>
			<value>hdfs://ns1</value>
	</property>
			
	<!-- 指定hadoop临时目录 -->
	<property>
			<name>hadoop.tmp.dir</name>
			<value>/root/training/hadoop-3.1.2/tmp</value>
	</property>
	
	<!-- 指定zookeeper地址 -->
	<property>
			<name>ha.zookeeper.quorum</name>
			<value>bigdata112:2181,bigdata113:2181,bigdata114:2181</value>
	</property>
</configuration>

3、修改hdfs-site.xml（配置这个nameservice中有几个namenode）

<configuration> 
    <!--指定hdfs的nameservice为ns1，需要和core-site.xml中的保持一致 -->
	<property>
		<name>dfs.nameservices</name>
		<value>ns1</value>
	</property>
			
	<!-- ns1下面有两个NameNode，分别是nn1，nn2 -->
	<property>
		<name>dfs.ha.namenodes.ns1</name>
		<value>nn1,nn2</value>
	</property>
			
	<!-- nn1的RPC通信地址 -->
	<property>
		<name>dfs.namenode.rpc-address.ns1.nn1</name>
		<value>bigdata112:9000</value>
	</property>
	<!-- nn1的http通信地址 -->
	<property>
		<name>dfs.namenode.http-address.ns1.nn1</name>
		<value>bigdata112:50070</value>
	</property>
	
	<!-- nn2的RPC通信地址 -->
	<property>
		<name>dfs.namenode.rpc-address.ns1.nn2</name>
		<value>bigdata113:9000</value>
	</property>
	<!-- nn2的http通信地址 -->
	<property>
		<name>dfs.namenode.http-address.ns1.nn2</name>
		<value>bigdata113:50070</value>
	</property>
		
	<!-- 指定NameNode的日志在JournalNode上的存放位置 -->
	<property>
		<name>dfs.namenode.shared.edits.dir</name>
		<value>qjournal://bigdata112:8485;bigdata113:8485;/ns1</value>
	</property>
	<!-- 指定JournalNode在本地磁盘存放数据的位置 -->
	<property>
		<name>dfs.journalnode.edits.dir</name>
		<value>/root/training/hadoop-3.1.2/journal</value>
	</property>
	<!-- 开启NameNode失败自动切换 -->
	<property>
		<name>dfs.ha.automatic-failover.enabled</name>
		<value>true</value>
	</property>
			
	<!-- 配置失败自动切换实现方式 -->
	<property>
		<name>dfs.client.failover.proxy.provider.ns1</name>
		<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
	</property>
			
	<!-- 配置隔离机制方法，多个机制用换行分割，即每个机制暂用一行-->
	<property>
		<name>dfs.ha.fencing.methods</name>
		<value>
			sshfence
			shell(/bin/true)
		</value>
	</property>
			
	<!-- 使用sshfence隔离机制时需要ssh免登陆 -->
	<property>
		<name>dfs.ha.fencing.ssh.private-key-files</name>
		<value>/root/.ssh/id_rsa</value>
	</property>
			
	<!-- 配置sshfence隔离机制超时时间 -->
	<property>
		<name>dfs.ha.fencing.ssh.connect-timeout</name>
		<value>30000</value>
	</property>
</configuration>

4、修改mapred-site.xml

<configuration>
	<property>
			<name>mapreduce.framework.name</name>
			<value>yarn</value>
	</property>
</configuration>

5、修改yarn-site.xml

<configuration>
    <!-- 开启RM高可靠 -->
	<property>
	   <name>yarn.resourcemanager.ha.enabled</name>
	   <value>true</value>
	</property>
	
    <!-- 指定RM的cluster id -->
	<property>
	   <name>yarn.resourcemanager.cluster-id</name>
	   <value>yrc</value>
	</property>
		
	<!-- 指定RM的名字 -->
	<property>
	   <name>yarn.resourcemanager.ha.rm-ids</name>
	   <value>rm1,rm2</value>
	</property>
	
	<!-- 分别指定RM的地址 -->
	<property>
	   <name>yarn.resourcemanager.hostname.rm1</name>
	   <value>bigdata112</value>
	</property>
	<property>
	   <name>yarn.resourcemanager.hostname.rm2</name>
	   <value>bigdata113</value>
	</property>
		
	<!-- 指定zk集群地址 -->
	<property>
	   <name>yarn.resourcemanager.zk-address</name>
	   <value>bigdata112:2181,bigdata113:2181,bigdata114:2181</value>
	</property>
	
	<property>
	   <name>yarn.nodemanager.aux-services</name>
	   <value>mapreduce_shuffle</value>
	</property>
</configuration>

6、修改workers

bigdata114
bigdata115

7、将配置好的hadoop拷贝到其他节点

scp -r /root/training/hadoop-3.1.2/ root@bigdata113:/root/training/
scp -r /root/training/hadoop-3.1.2/ root@bigdata114:/root/training/
scp -r /root/training/hadoop-3.1.2/ root@bigdata115:/root/training/

五、启动Zookeeper集群

三台zookeeper分别进行启动

六、在bigdata112和bigdata113上启动journalnode

hadoop-daemon.sh start journalnode

七、格式化HDFS（在bigdata112上执行）

1、 hdfs namenode -format
2、将/root/training/hadoop-3.1.2/tmp拷贝到bigdata113的/root/training/hadoop-3.1.2/tmp下

	scp -r dfs/ root@bigdata113:/root/training/hadoop-3.1.2/tmp

3、格式化zookeeper

hdfs zkfc -formatZK
日志：17/07/13 00:34:33 INFO ha.ActiveStandbyElector: Successfully created /hadoop-ha/ns1 in ZK.

八、在bigdata112上启动Hadoop集群

start-all.sh

日志：
		Starting namenodes on [bigdata112 bigdata113]
		Last login: Fri Sep 27 00:18:38 CST 2019 on pts/0
		Starting datanodes
		Last login: Fri Sep 27 00:19:37 CST 2019 on pts/0
		Starting journal nodes [bigdata112 bigdata113]
		Last login: Fri Sep 27 00:19:40 CST 2019 on pts/0
		bigdata113: journalnode is running as process 1297.  Stop it first.
		bigdata112: journalnode is running as process 1294.  Stop it first.
		Starting ZK Failover Controllers on NN hosts [bigdata112 bigdata113]
		Last login: Fri Sep 27 00:19:50 CST 2019 on pts/0
		Starting resourcemanagers on [ bigdata112 bigdata113]
		Last login: Fri Sep 27 00:19:52 CST 2019 on pts/0
		Starting nodemanagers
		Last login: Fri Sep 27 00:20:00 CST 2019 on pts/0

问题一

启动Hadoop的时候，可以出现虚拟内存不够用
在这里插入图片描述
解决：
配置yarn-site.xml，虚拟内存检查禁用

<property>
	<name>yarn.nodemanager.vmem-check-enabled</name>
	<value>false</value>
</property>

乱画十八笔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Hadoop 3.0环境搭建-HDFS&&MapReduce

Hadoop目录结构准备工作：1、安装Linux、关闭防火墙、配置主机名、安装JDK2、解压 tar -zxvf 包名3、设置环境变量：vi ~/.bash_profileHADOOP_HOME=/root/training/hadoop-3.1.2export HADOOP_HOMEPATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATHexport PATH #注意：伪分布模式和全分布模式，需要设置以下环境变量（运行的用户）：export
复制链接

扫一扫