Hadoop完全分布式模式安装部署

本教程详细介绍了如何在Linux环境下搭建一个完全分布式Hadoop集群,包括配置3台虚拟机、设置时钟同步、SSH免密登录、修改配置文件、格式化HDFS、启动Hadoop以及运行wordcount和wordmean示例程序。通过该教程,读者能够掌握Hadoop集群的基本搭建和操作。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在Linux上搭建Hadoop系列:1.Hadoop环境搭建流程图2.搭建Hadoop单机模式3.搭建Hadoop伪分布式模式4.搭建Hadoop完全分布式模式

注:此教程皆是以范例讲述的,当然你可以按照教程搭建一个与教程一样的Hadoop环境,如果你想搭建一个与本教程有一些差异的Hadoop环境,这时请注意配置文件的参数可能不一样以及文件路径不一样。

目录

1.Hadoop集群规划与部署

(1)准备3台虚拟机

(2)分别映射好三台虚拟机的IP与主机名

(3)设置三台机器时钟同步

(4)设置三台机器两两之间SSH密码登录

(5)修改主节点配置文件并远程拷贝到从节点

1.在主节点上修改配置文件

2.将主节点的配置文件分发到两个从节点

2.格式化HDFS并启动Hadoop

(1)在主节点上格式化HDFS

(2)在主节点上启动Hadoop

(3)在各节点上用JPS查看进程

(4)web界面上查看

3.在完全分布式模式下运行Hadoop自带示例程序

1.在完全分布式模式下使用wordcount示例程序完成单词统计

(1)准备数据

(2)运行wordcount程序

(3)查看运行结果

2.在完全分布式模式下使用wordmean示例程序计算文件中单词的平均长度

(1)准备数据:HDFS上的/input

  (2)运行wordmean程序

(3)查看结果

 


1.Hadoop集群规划与部署

一个完全分布式模式Hadoop集群至少由三台机器构成,此处搭建一个三台机器构成的小集群。

一主二从结构
节点角色 虚拟机名 机器IP 主机名 运行进程
主节点 master 192.168.232.200 node

NameNode

ResourceManager

SecondaryNameNode

从节点 slave1 192.168.232.201 node1

DataNode

NodeManager

从节点 slave2 192.168.232.202 node2

DataNode

NodeManager

(1)准备3台虚拟机

3台虚拟机可以是已部署单机模式Hadoop,已部署伪分布模式Hadoop,当然也可以是从零开始的基础环境。

           克隆出三台虚拟机

注:为方便管理可以建一个文件夹(full-Distributed),将三台虚拟机放入其中。

(2)分别映射好三台虚拟机的IP与主机名

//1.修改IP避免冲突
vi /etc/sysconfig/network-scripts/ifcfg-ens33  //编辑网络配置
systemctl restart network //重启网络服务

此处为方便记忆,建议master节点IP尾数用200,slave1用201,slave2用202.

//2.修改主机名
hostname //查看主机名
hostnamectl set-hostname node //将主机名改为node
hostnamectl set-hostname node1 //将主机名改为node1
hostnamectl set-hostname node2 //将主机名改为node2

master用node,slave1用node1,slave2用node2.

//3.映射IP与主机名
vi /etc/hosts

(3)设置三台机器时钟同步

完全分布式模式由多台主机组成,如果主机间时间差异较大,运行Hadoop的时候会出现问题,因此需要对每个节点配置时钟同步。

采用NTP服务通过获取网络时间使集群内不同主机的时间保持一致

此处选取阿里云的时间服务器aliyun.com

//1.安装NTP服务
yum install ntp
//2.手动同步时间
ntpdate -u ntp1.aliyun.com
//3.查看时间
date

(4)设置三台机器两两之间SSH密码登录

在完全分布式模式下,集群内任意一台主机可免密登录集群内所有主机,实现两两免密登录。

若是以伪分布模式为基础的机器则需要先删除node,node1,node2主机上原有的.ssh目录

然后分别在node,node1,node2主机上生成公钥/私钥密钥对,再将公钥发送给集群内的所有主机。

//1.在各节点上删除原有.ssh目录,然后重新生成密钥对
rm -rf /root/.ssh //删除原有.ssh目录
ssh-keygen -t rsa  //生成密钥对
cd ~/.ssh  //进入.ssh目录
ll  //查看密钥对
//2.在各节点的.ssh目录下将公钥复制到node节点
cd ~  //进入根目录
ssh-copy-id node  //复制公钥到node节点
ssh-copy-id node1  //复制公钥到node1节点
ssh-copy-id node2  //复制公钥到node2节点
//3.查看node节点上的authorized_key文件
cd .ssh  //进入.ssh目录
more authorized_keys
### Hadoop 完全分布式模式安装部署教程 #### 准备工作 为了成功完成Hadoop完全分布式安装,需先准备好服务器节点,并确保各节点间网络互通。通常建议至少准备三台机器作为集群中的不同角色(NameNode, DataNode等),以便于测试高可用性和冗余性。 #### 环境初始化 在所有目标主机上执行必要的软件包更新以及Java环境的设置[^1]: ```bash sudo apt update && sudo apt upgrade -y sudo apt install openjdk-8-jdk -y java -version ``` #### 上传与解压缩Hadoop安装包 选择一台主控机用于存并分发Hadoop二进制文件给其他成员节点。使用`lrzsz`工具可以方便地从本地计算机传输tarball至远程Linux系统中;之后切换到指定路径下进行解档操作: ```bash cd /opt/ sudo chown hadoop:hadoop ./hadoop rz -b # 使用图形界面挑选要传送过来的目标档案 tar -zxvf hadoop-3.3.6.tar.gz ``` #### 修改配置文件 编辑核心站点配置文件core-site.xml、hdfs-site.xml来定义namenode地址和其他参数。对于多节点集群而言,还需要调整slaves列表以包含所有的datanodes IP 者 主机名[^2]。 #### 启动服务 初次启动之前应该格式化Namenode存储空间,接着按照顺序依次开启各个组件的服务进程。可以通过脚本者手动方式分别在每台设备上面运行相应的命令。 #### 测试验证 最后一步是对新建立起来的大数据平台做功能性的检验,比如提交简单的WordCount作业查看能否正常返回预期的结果集。这不仅能够确认整个架构是否稳定可靠,同时也为后续更复杂的业务逻辑开发打下了坚实的基础。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值