Hadoop3.0集群环境搭建

最新推荐文章于 2024-07-21 19:41:19 发布

威成天下

最新推荐文章于 2024-07-21 19:41:19 发布

阅读量5.2k

点赞数 8

分类专栏： MPI学习之路文章标签： Hadoop3.0 Hadoop3.0集群搭建 hadoop环境搭建

本文链接：https://blog.csdn.net/secyb/article/details/80170804

版权

本文详细介绍了如何在Linux环境下搭建Hadoop3.0集群，包括准备Java环境，配置SSH免密登录，安装与配置Hadoop，以及启动和检查集群状态。适合Hadoop初学者参考。

摘要由CSDN通过智能技术生成

1 前言

项目中大部分数据存储在Hadoop分布式文件系统（HDFS）中，包括MPI并行用到的原始数据，因此我搭建了Hadoop集群进行测试。距离我搭建Hadoop集群也有几个月了，当时只记录下了主要步骤，有些细节可能被遗忘。不过我会用最通俗的语言还原搭建Hadoop3.0集群的流程，尽可能保证所有读者在看了我的文章后可以成功搭建出Hadoop集群。

2 准备工作

集群中两个节点（mpi-1和mpi-2），这是我在OpenStack分配的两个节点，具体内容可参考我以前博客（如果对并行没有兴趣，可以不用管）。注：可以根据需要修改节点主机名（这些都不是重点），我将mpi-1看作主节点Master，mpi-2看作从节点Worker（根据需要自行增加）。一句话概括，我的Hadoop集群用了两台虚拟机（mpi-1和mpi-2，主机名改不改无所谓），可以根据需要任意增加节点数量（步骤完全一样）。为了省去不必要的麻烦，新建虚拟机时用户保持一致（搭建Hadoop集群的每个节点用户名相同，我这里用户名都是ubuntu）。
其实我们可以直接去Hadoop官网，上面有完整的集群搭建步骤说明。安装Hadoop之前需要安装Java（Hadoop是java开发的，编译及运行都需要使用JDK）和ssh（Hadoop需要通过ssh来启动各个节点的进程）。

2.1 jdk安装（每个节点同样操作）

下载JDK（可到甲骨文网站Oracle下载，我当时下载的是jdk-8u151-linux-x64.tar.gz（jdk8都行）
在jdk压缩包目录下（我的路径是/home/ubuntu/java/）解压：tar –zxvf jdk-8u151-linux-x64.tar.gz
配置jdk（关于Linux配置文件，可以参考：Linux配置文件说明），执行以下命令：

vim ~/.bashrc
//在文件最后添加
export JAVA_HOME=/home/ubuntu/java/jdk1.8.0_151
export PATH=$JAVA_HOME/bin:$PATH
source ~/.bashrc //刷新配置
java –version //验证，查看 java 版本

2.2 ssh免密码登录配置

2.2.1 网络环境配置

首先修改主机名和 IP 的映射关系，分别配置两台机器的hosts文件，在此之前先通过ip addr show或ifconfig命令查看两台机器（三个及三个以上节点只需添加即可）的IP地址，我的IP地址为：

mpi-1:10.10.10.12
mpi-2:10.10.10.17

然后修改hosts文件：

sudo vim /etc/hosts

根据以上查得的IP地址，在两台机器的hosts文件中均输入以下内容并保存：

10.10.10.12 mpi-1
10.10.10.17 mpi-2

此时，两个节点间应该可以互相ping通（在mpi-1上执行命令： ping mpi-2）。

2.2.2 ssh免密登录（可以参考我之前博客）

（1）在每个节点安装ssh服务：sudo apt-get install ssh （有些版本Ubuntu安装过程中可能会出现问题，安装错误提示一步一步搜索即可解决问题）。
（2）各节点生成私钥和公钥
ssh-keygen -t rsa // 生成的钥匙文件在 ~/.ssh/下，其他linux版本如CentOS路径会有所不同
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys //认证（执行该步后可以保证本机免密登录，使用ssh mpi-1进行测试）
（3）把各子节点的 id_rsa.pub 传到主节点
scp id_rsa.pub ubuntu@mpi-1:~/.ssh/id_rsa.pub.mpi-2（这里我们把mpi-1看作主节点，将mpi-2节点的钥匙文件传到node1上）
（4）在主节点上操作
cat ~/.ssh/id_rsa.pub.mpi-2 >> ~/.ssh/authorized_keys//认证
scp authorized_keys ubuntu@mpi-2:~/.ssh/authorized_keys//将认证文件传回每个子节点
（5）验证无密码登录
在mpi-1节点上执行：ssh mpi-2
注：这里只有两个节点，如果是更多节点或需要添加节点，只需模仿上述步骤修改每个节点的hosts文件，ssh免密登录配置时将所有节点的公钥文件传到主节点认证，然后将主节点的认证文件传回每个子节点。我是在OpenStack上创建的节点,文件传输我使用了其他服务器作为跳板（比如：scp authorized_keys lw@202.114.118.190:~/.ssh/authorized_keys.mpi-2 使用190服务器作为跳板）。

3 Hadoop的安装与配置

3.1 安装Hadoop

3.1.1 下载

（1）到Hadoop官网下载，我下载的是hadoop-3.0.0.tar.gz
（2）同jdk类似，在家目录下（/home/ubuntu/）创建文件夹hadoop：mkdir hadoop，然后解压：tar –zxvf hadoop-3.0.0.tar.gz

3.1.2 配置环境变量

执行如下命令：

vim ~/.bashrc
//在文件最后添加
export HAD

最低0.47元/天解锁文章

威成天下

关注

8
点赞
踩
21

收藏

觉得还不错? 一键收藏
3
评论
Hadoop3.0集群环境搭建

1 前言项目中大部分数据存储在Hadoop分布式文件系统（HDFS）中，包括MPI并行用到的原始数据，因此我搭建了Hadoop集群进行测试。距离我搭建Hadoop集群也有几个月了，当时只记录下了主要步骤，有些细节可能被遗忘。不过我会用最通俗的语言还原搭建Hadoop3.0集群的流程，尽可能保证所有读者在看了我的文章后可以成功搭建出Hadoop集群。2 准备工作集群中两个节点（m...
复制链接

扫一扫

专栏目录