Hadoop集群搭建（超详细）

最新推荐文章于 2024-06-20 16:12:27 发布

镜子里的宇宙

最新推荐文章于 2024-06-20 16:12:27 发布

阅读量4.2k

点赞数 5

分类专栏： Hadoop # Hdfs 文章标签：大数据 hadoop

本文链接：https://blog.csdn.net/qq_45798620/article/details/108955958

版权

Hadoop 同时被 2 个专栏收录

19 篇文章 1 订阅

订阅专栏

Hdfs

9 篇文章 0 订阅

订阅专栏

Hadoop三大公司

apache
hortonWorks
Cloudera
星环科技（国内）

Hadoop的模块组成

HDFS：一个高可靠、高吞吐量的分布式文件系统。
MapReduce：一个分布式的离线并行计算框架。
YARN：作业调度与集群资源管理的框架。
Common：支持其他模块的工具模块。

Hadoop集群搭建（此案例需要三台虚拟机）

1、服务器主机名和IP配置（三台）

在这里插入图片描述

Linux：动态网络配置
 Linux：静态网络配置 IP配置

2、修改每个主机的/etc/hosts文件，添加IP和主机名的对应关系（三台）

vim /etc/hosts
文件中添加：
IP地址主机名 (# 第一台)
IP地址主机名 (# 第二台)
IP地址主机名 (# 第三台)

3、管理节点到从节点配置无密码登录

Linux：ssh无密码跳转登录目标服务器

4、配置jdk 1.8（三台）

主节点：
Linux：JDK安装部署
副节点：
将export文件复制到副节点：scp -r /export 副节点主机名或副节点IP地址:/
更新/usr/bin/java 软链接并验证是否失效：Linux：JDK安装部署

5、关闭防火墙（三台）

/etc/init.d/iptables stop（关闭防火墙）
防火墙设置：
设置开机防火墙自启：chkconfig iptables on
设置开机防火墙不自启（推荐）：chkconfig iptables off

6、关闭selinux（三台）

vi /etc/selinux/config
将：SELINUX=enforcing 改为： SELINUX=disabled
disabled：这行上面的那个单词记住位置方便记忆

7、重启系统

关闭selinux后需要重启系统生效

8、软件包上传Hadoop安装包并解压

安装包上传至：/export/soft文件夹下

解压到servers：
tar -zxvf hadoop-2.6.0-cdh5.14.0-with-centos6.9.tar.gz -C …/servers/
(servers是export文件下的子文件夹)

9、查看hadoop支持的压缩方式以及本地库

进入到bin目录：
在这里插入图片描述
./hadoop checknative

安装openssl
yum -y install openssl-devel
查看：./hadoop checknative

为true就行

10、主节点修改配置文件

要修改的代码里要将node01改为主节点的主机名
要修改的代码里要将node01改为主节点的主机名
要修改的代码里要将node01改为主节点的主机名

修改core-site.xml：
cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim core-site.xml
复制下列代码到xml内的configuration里

<property>
		<name>fs.defaultFS</name>
		<value>hdfs://node01:8020</value>
	</property>
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/tempDatas</value>
	</property>
	<!--  缓冲区大小，实际工作中根据服务器性能动态调整 -->
	<property>
		<name>io.file.buffer.size</name>
		<value>4096</value>
	</property>

	<!--  开启hdfs的垃圾桶机制，删除掉的数据可以从垃圾桶中回收，单位分钟 -->
	<property>
		<name>fs.trash.interval</name>
		<value>10080</value>
</property>

修改hdfs-site.xml：
cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim hdfs-site.xml
复制下列代码到xml内的configuration里

<!-- NameNode存储元数据信息的路径，实际工作中，一般先确定磁盘的挂载目录，然后多个目录用，进行分割   --> 
	<!--   集群动态上下线 
	<property>
		<name>dfs.hosts</name>
		<value>/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/accept_host</value>
	</property>
	
	<property>
		<name>dfs.hosts.exclude</name>
		<value>/export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop/deny_host</value>
	</property>
	 -->
	 
	 <property>
			<name>dfs.namenode.secondary.http-address</name>
			<value>node01:50090</value>
	</property>

	<property>
		<name>dfs.namenode.http-address</name>
		<value>node01:50070</value>
	</property>
	<property>
		<name>dfs.namenode.name.dir</name>
		<value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/namenodeDatas</value>
	</property>
	<!--  定义dataNode数据存储的节点位置，实际工作中，一般先确定磁盘的挂载目录，然后多个目录用，进行分割  -->
	<property>
		<name>dfs.datanode.data.dir</name>
		<value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas</value>
	</property>
	
	<property>
		<name>dfs.namenode.edits.dir</name>
		<value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/edits</value>
	</property>
	<property>
		<name>dfs.namenode.checkpoint.dir</name>
		<value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/snn/name</value>
	</property>
	<property>
		<name>dfs.namenode.checkpoint.edits.dir</name>
		<value>file:///export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/snn/edits</value>
	</property>
	<property>
		<name>dfs.replication</name>
		<value>2</value>
	</property>
	<property>
		<name>dfs.permissions</name>
		<value>false</value>
	</property>
<property>
		<name>dfs.blocksize</name>
		<value>134217728</value>
</property>

检查Hadoop-env.sh的jdk1.8路径：（不用改）

// 如果不对：Linux：JDK安装部署里面参考修改系统配置
修改mapred-site.xml：
cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
vim mapred-site.xml
复制下列代码到xml内的configuration里

<property>
<!--运行模式-->
		<name>mapreduce.framework.name</name>
		<value>yarn</value>
	</property>

	<property>
	<!--JVM重用 -->
		<name>mapreduce.job.ubertask.enable</name>
		<value>true</value>
	</property>
	
	<property>
		<name>mapreduce.jobhistory.address</name>
		<value>node01:10020</value>
	</property>

	<property>
		<name>mapreduce.jobhistory.webapp.address</name>
		<value>node01:19888</value>
</property>

修改yarn-site.xml：
cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim yarn-site.xml
复制下列代码到xml内的configuration里

<property>
		<name>yarn.resourcemanager.hostname</name>
		<value>node01</value>
	</property>
	<property>
<!-- nodemanager 上的附属服务，只有配置成mapreduce_shuffle 才能运行-->
		<name>yarn.nodemanager.aux-services</name>
		<value>mapreduce_shuffle</value>
</property>

修改slaves：
cd /export/servers/hadoop-2.6.0-cdh5.14.0/etc/hadoop
vim slaves
文件内：

主节点主机名
副节点1主机名
副节点2主机名

例：

node01
node02
node03

11、主节点创建文件存放目录

mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/tempDatas
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/namenodeDatas
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/datanodeDatas 
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/edits
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/snn/name
mkdir -p /export/servers/hadoop-2.6.0-cdh5.14.0/hadoopDatas/dfs/nn/snn/edits

12、安装包的分发

将主节点的安装包分发到其他副节点
cd /export/servers/

scp -r hadoop-2.6.0-cdh5.14.0 副节点ip:/export/servers/
或者
scp -r hadoop-2.6.0-cdh5.14.0 副节点主机名:/export/servers/

13、配置Hadoop的环境变量

三台机器都要进行配置Hadoop的环境变量

vim  /etc/profile.d/hadoop.sh

文件内：
export HADOOP_HOME=/export/servers/hadoop-2.6.0-cdh5.14.0
export PATH=:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

重启profile文件后生效
source /etc/profile

14、集群启动

要启动 Hadoop 集群，需要启动 HDFS 和 YARN 两个集群。
注意：首次启动HDFS时，必须对其进行格式化操作。本质上是一些清理和准备工作，因为此时的 HDFS 在物理上还是不存在的。

格式化：
hdfs namenode  -format或者Hadoop namenode –format（进入到bin目录执行该代码）

在这里插入图片描述

方法一：(单个节点逐一启动)
cd /export/servers/hadoop-2.6.0-cdh5.14.0/sbin
在主节点上使用以下命令启动 HDFS NameNode： ./hadoop-daemon.sh start namenode 
在每个从节点上使用以下命令启动 HDFS DataNode： ./hadoop-daemon.sh start datanode 
在主节点上使用以下命令启动 YARN ResourceManager： ./yarn-daemon.sh  start resourcemanager 
在每个从节点上使用以下命令启动 YARN nodemanager： ./yarn-daemon.sh start nodemanager 
// 以上脚本位于hadoop-2.6.0-cdh5.14.0/sbin/目录下。如果想要停止某个节点上某个角色，只需要把命令中的start 改为stop 即可。

方法二：(脚本一键启动HDFS、Yarn)
cd /export/servers/hadoop-2.6.0-cdh5.14.0
sbin/start-dfs.sh
sbin/start-yarn.sh
停止集群：
sbin/stop-dfs.sh
sbin/stop-yarn.sh

方法三：(脚本一键启动所有)
cd /export/servers/hadoop-2.6.0-cdh5.14.0/
一键启动集群：
sbin/start-all.sh
一键关闭集群：
sbin/stop-all.sh

没事儿不要去停止集群

15、浏览器查看启动页面

hdfs集群访问地址：  http://主节点IP:50070

在这里插入图片描述

yarn集群访问地址：  http://主节点IP:8088

在这里插入图片描述

镜子里的宇宙

关注

5
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
Hadoop集群搭建（超详细）

dfgkjsdfgksdfjglsdfjg(fgsdfgsdfg)gsdfgsdgsdfgsghsfgsdfgsdgfghdfsgdfsdgdfgsdfgdfgsdfg(fgsdfgsdfg)yujryfujfjfghjghjfghjghjfghjfghjfghjfghjfghjfghjfghjfgjfghjfggsdfgsdgsdfgsghjgfhjfghjghjfghjfghjfghjfghjfgjfghjfghjfgj
复制链接

扫一扫

专栏目录