Hadoop3.0集群环境搭建

1 前言

项目中大部分数据存储在Hadoop分布式文件系统(HDFS)中,包括MPI并行用到的原始数据,因此我搭建了Hadoop集群进行测试。距离我搭建Hadoop集群也有几个月了,当时只记录下了主要步骤,有些细节可能被遗忘。不过我会用最通俗的语言还原搭建Hadoop3.0集群的流程,尽可能保证所有读者在看了我的文章后可以成功搭建出Hadoop集群。


2 准备工作

集群中两个节点(mpi-1和mpi-2),这是我在OpenStack分配的两个节点,具体内容可参考我以前博客(如果对并行没有兴趣,可以不用管)。注:可以根据需要修改节点主机名(这些都不是重点),我将mpi-1看作主节点Master,mpi-2看作从节点Worker(根据需要自行增加)。一句话概括,我的Hadoop集群用了两台虚拟机(mpi-1和mpi-2,主机名改不改无所谓),可以根据需要任意增加节点数量(步骤完全一样)。为了省去不必要的麻烦,新建虚拟机时用户保持一致(搭建Hadoop集群的每个节点用户名相同,我这里用户名都是ubuntu)。
其实我们可以直接去Hadoop官网,上面有完整的集群搭建步骤说明。安装Hadoop之前需要安装Java(Hadoop是java开发的,编译及运行都需要使用JDK)和ssh(Hadoop需要通过ssh来启动各个节点的进程)。

2.1 jdk安装(每个节点同样操作)

  • 下载JDK(可到甲骨文网站Oracle下载,我当时下载的是jdk-8u151-linux-x64.tar.gz(jdk8都行)
  • 在jdk压缩包目录下(我的路径是/home/ubuntu/java/)解压:tar –zxvf jdk-8u151-linux-x64.tar.gz
  • 配置jdk(关于Linux配置文件,可以参考:Linux配置文件说明),执行以下命令:
vim ~/.bashrc
//在文件最后添加
export JAVA_HOME=/home/ubuntu/java/jdk1.8.0_151
export PATH=$JAVA_HOME/bin:$PATH
source ~/.bashrc //刷新配置
java –version //验证,查看 java 版本

2.2 ssh免密码登录配置

2.2.1 网络环境配置

首先修改主机名和 IP 的映射关系,分别配置两台机器的hosts文件,在此之前先通过ip addr showifconfig命令查看两台机器(三个及三个以上节点只需添加即可)的IP地址,我的IP地址为:

mpi-1:10.10.10.12
mpi-2:10.10.10.17

然后修改hosts文件:

sudo vim /etc/hosts 

根据以上查得的IP地址,在两台机器的hosts文件中均输入以下内容并保存:

10.10.10.12 mpi-1
10.10.10.17 mpi-2

此时,两个节点间应该可以互相ping通(在mpi-1上执行命令: ping mpi-2)。

2.2.2 ssh免密登录(可以参考我之前博客

(1)在每个节点安装ssh服务:sudo apt-get install ssh (有些版本Ubuntu安装过程中可能会出现问题,安装错误提示一步一步搜索即可解决问题)。
(2)各节点生成私钥和公钥
ssh-keygen -t rsa // 生成的钥匙文件在 ~/.ssh/下,其他linux版本如CentOS路径会有所不同
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys //认证(执行该步后可以保证本机免密登录,使用ssh mpi-1进行测试)
(3)把各子节点的 id_rsa.pub 传到主节点
scp id_rsa.pub ubuntu@mpi-1:~/.ssh/id_rsa.pub.mpi-2(这里我们把mpi-1看作主节点,将mpi-2节点的钥匙文件传到node1上)
(4)在主节点上操作
cat ~/.ssh/id_rsa.pub.mpi-2 >> ~/.ssh/authorized_keys//认证
scp authorized_keys ubuntu@mpi-2:~/.ssh/authorized_keys//将认证文件传回每个子节点
(5)验证无密码登录
在mpi-1节点上执行:ssh mpi-2
注:这里只有两个节点,如果是更多节点或需要添加节点,只需模仿上述步骤修改每个节点的hosts文件,ssh免密登录配置时将所有节点的公钥文件传到主节点认证,然后将主节点的认证文件传回每个子节点。我是在OpenStack上创建的节点,文件传输我使用了其他服务器作为跳板(比如:scp authorized_keys lw@202.114.118.190:~/.ssh/authorized_keys.mpi-2 使用190服务器作为跳板)。


3 Hadoop的安装与配置

3.1 安装Hadoop

3.1.1 下载

(1)到Hadoop官网下载,我下载的是hadoop-3.0.0.tar.gz
(2)同jdk类似,在家目录下(/home/ubuntu/)创建文件夹hadoop:mkdir hadoop,然后解压:tar –zxvf hadoop-3.0.0.tar.gz

3.1.2 配置环境变量

执行如下命令:

vim ~/.bashrc
//在文件最后添加
export HAD
  • 8
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
要搭建Hadoop 3.0集群,您可以按照以下步骤进行操作: 1. 安装JDK:确保在所有节点上安装了Java Development Kit(JDK)。 2. 配置SSH免密码登录:确保所有节点之间可以进行SSH免密码登录。您可以使用ssh-keygen命令生成公钥和私钥,并将公钥拷贝到所有节点上。 3. 下载Hadoop:从Apache Hadoop官方网站下载最新版本的Hadoop 3.0,并解压缩到所有节点的相同目录。 4. 配置Hadoop环境变量:在每个节点的.bashrc文件中设置Hadoop环境变量。例如,在节点的.bashrc文件中添加以下内容: ```bash export HADOOP_HOME=/path/to/hadoop export PATH=$PATH:$HADOOP_HOME/bin ``` 然后使用source命令使其生效。 5. 配置Hadoop集群:在所有节点上编辑Hadoop配置文件,包括core-site.xml、hdfs-site.xml和yarn-site.xml。确保在配置文件中设置正确的主机名和端口号。 6. 格式化HDFS:在主节点上运行以下命令来格式化HDFS: ```bash hdfs namenode -format ``` 7. 启动Hadoop集群:在主节点上运行以下命令启动Hadoop集群: ```bash start-dfs.sh start-yarn.sh ``` 8. 验证Hadoop集群:使用以下命令检查Hadoop集群是否成功启动: ```bash jps ``` 您应该能够看到NameNode、DataNode、ResourceManager和NodeManager等进程正在运行。 这些步骤应该可以帮助您搭建Hadoop 3.0集群。请注意,这只是一个基本的指南,具体的步骤可能会因您的环境而有所不同。在进行生产环境部署之前,请确保详细阅读Hadoop官方文档并遵循最佳实践。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值