使用hadoop的服务器集群环境搭建流程

服务器集群的网络配置:

配置主机名称:

/etc/hostname改变服务器主机名。

集群服务器要协同工作,最好按照一致的姓名规则为主机命名通过修改

配置服务器ip映射:

etc/hosts 中添加类似下图内容 

集群服务器ip一般没有一定的规律,且当一个配置文件中内部使用了某服务器ip时,如果服务器ip之后有改动,那么文件中所有设计ip的文本都要修改,非常麻烦,我们要把ip映射对应的服务器主机名

配置远程办公电脑 主机映射(win10为例):

进入C:\Windows\System32\drivers\etc 修改hosts文件 添加内容和上图一致即可

服务器集群远程访问配置

远程电脑操作服务器集群:

使用xshell,xftp来操作服务器集群,一个可以远程进入服务器终端来执行各种shell命令,另一个可以从远程电脑向服务器上传文件,使用需要注意,你的服务器必须启动ssh服务。

服务器内部免密操作配置:

使用ssh 相关命令,使服务器之间可以免密相互操作 服务器每个账户都有各自的ssh文件夹,你需要使用 ssh-keygen 命令产生秘钥对,然后使用ssh-copy-id 将公钥分发给其他服务器。注意服务器自己也需要分发一份公钥。

安装jdk和hadoop

直接使用tar解压即可

环境变量配置:/etc/profile.d目录下所有脚本文件都会在开机后运行一次,所以我们可以把全局变量配置脚本放入这个目录下 使用export 添加JAVA_HOME 全局变量,并修改linux内置变量path 向其中添加javabin路径,hadoop同理

配置完毕并测试可用后,请重启虚拟机。

hadoop组件配置策略:

HDFS组件配置策略:

namenode配置唯一,他的主要功能是储存文件的元数据,和文件的块映射策略。一个就可以了

datanode所有服务器集群都要配置,他的主要功能是储存文件块。

Yarn组件配置策略:

resourcemaneger配置唯一,且不要和namenode同一服务器,他是数据管理的总管,

nodemanager所有集群服务器都要配置。

以上两个组件配置都在配置文件中进行,四大配置文件都在hadoop下的etc下的hadoop目录内,分别是core-site.xml, yarn-site.xml, hdfs-site.xml,mapred-site.xml

hadoop组件自定义配置中我们出了要配置相关组件的位置(namenode,resourcemanager等),还需要配置一个对外暴露的接口方便客户端操作,这个接口一般以网站形式展示,分别是nn的网页地址,和2nn的网页地址,应为客户端一般与这两个组件交互。

我们还要配置mapreduce,让他运行在yarn上。

最后我们需要配置workers,将所有集群服务器的名称写入文件。

以上都只是在一台服务器上的配置文件,这些配置文件应该分发给集群中的每个服务器。所以你需要syrnc指令对这些配置文件进行分发。

首次群起集群

第一次群起集群你需要首先使用nn的格式化指令格式化nn,此时会产生一个gradid,之后先启动hdfs,在启动yarn。

可选择配置内容

配置历史服务器:

历史服务器可以查看程序历史的运行情况,我们在mapred-site中进行配置。

配置日志聚集:

将每台集群服务器产生的日志汇总成一个文件,我们在yarn-site中进行配置。

配置时间同步:

将一台服务器作为时间同步的目标,其他服务器每过一段时间将本地时间同步为目标服务器时间。

主要通过修改ntpd进程的配置文件来进行。

常用端口号

 

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Hadoop服务器集群的搭建流程可以大致分为以下几个步骤: 1. 硬件准备:确保每台服务器都满足Hadoop的最低硬件要求,如处理器、内存、硬盘等。 2. 操作系统安装:在每台服务器上安装适合的操作系统,如Linux发行版(如Ubuntu、CentOS等)。 3. 网络配置:配置每台服务器的网络设置,确保它们能够相互通信。 4. SSH设置:在每台服务器上启用SSH,并设置免密登录。 5. Java安装:在每台服务器上安装Java Development Kit (JDK),确保Hadoop能够运行。 6. Hadoop安装:在一台服务器上安装Hadoop,并进行必要的配置,如Hadoop的核心配置文件、环境变量等。 7. 配置Hadoop集群:编辑Hadoop的配置文件,包括core-site.xml、hdfs-site.xml和mapred-site.xml等,配置集群中的各个节点。 8. 格式化HDFS:在主节点上格式化HDFS,创建初始的文件系统。 9. 启动集群:启动Hadoop集群,确保各个节点正常运行。 10. 测试集群:通过运行一些示例程序或命令,验证集群的正常运行。 11. 高可用性配置(可选):如果需要实现Hadoop集群的高可用性,可以进行相关配置,如启用HDFS的故障转移和资源管理器的HA等。 12. 集群监控和管理(可选):可以使用Hadoop的相关工具,如Ambari、Cloudera Manager等,进行集群的监控和管理。 以上是Hadoop服务器集群搭建的大致流程,具体的步骤和配置可能会根据实际情况有所不同。在实际操作中,可以参考Hadoop官方文档或其他相关资源进行详细的指导。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值