服务器集群的网络配置:
配置主机名称:
/etc/hostname改变服务器主机名。
集群服务器要协同工作,最好按照一致的姓名规则为主机命名通过修改
配置服务器ip映射:
etc/hosts 中添加类似下图内容
集群服务器ip一般没有一定的规律,且当一个配置文件中内部使用了某服务器ip时,如果服务器ip之后有改动,那么文件中所有设计ip的文本都要修改,非常麻烦,我们要把ip映射对应的服务器主机名
配置远程办公电脑 主机映射(win10为例):
进入C:\Windows\System32\drivers\etc 修改hosts文件 添加内容和上图一致即可
服务器集群远程访问配置
远程电脑操作服务器集群:
使用xshell,xftp来操作服务器集群,一个可以远程进入服务器终端来执行各种shell命令,另一个可以从远程电脑向服务器上传文件,使用需要注意,你的服务器必须启动ssh服务。
服务器内部免密操作配置:
使用ssh 相关命令,使服务器之间可以免密相互操作 服务器每个账户都有各自的ssh文件夹,你需要使用 ssh-keygen 命令产生秘钥对,然后使用ssh-copy-id 将公钥分发给其他服务器。注意服务器自己也需要分发一份公钥。
安装jdk和hadoop
直接使用tar解压即可
环境变量配置:/etc/profile.d目录下所有脚本文件都会在开机后运行一次,所以我们可以把全局变量配置脚本放入这个目录下 使用export 添加JAVA_HOME 全局变量,并修改linux内置变量path 向其中添加javabin路径,hadoop同理
配置完毕并测试可用后,请重启虚拟机。
hadoop组件配置策略:
HDFS组件配置策略:
namenode配置唯一,他的主要功能是储存文件的元数据,和文件的块映射策略。一个就可以了
datanode所有服务器集群都要配置,他的主要功能是储存文件块。
Yarn组件配置策略:
resourcemaneger配置唯一,且不要和namenode同一服务器,他是数据管理的总管,
nodemanager所有集群服务器都要配置。
以上两个组件配置都在配置文件中进行,四大配置文件都在hadoop下的etc下的hadoop目录内,分别是core-site.xml, yarn-site.xml, hdfs-site.xml,mapred-site.xml
hadoop组件自定义配置中我们出了要配置相关组件的位置(namenode,resourcemanager等),还需要配置一个对外暴露的接口方便客户端操作,这个接口一般以网站形式展示,分别是nn的网页地址,和2nn的网页地址,应为客户端一般与这两个组件交互。
我们还要配置mapreduce,让他运行在yarn上。
最后我们需要配置workers,将所有集群服务器的名称写入文件。
以上都只是在一台服务器上的配置文件,这些配置文件应该分发给集群中的每个服务器。所以你需要syrnc指令对这些配置文件进行分发。
首次群起集群
第一次群起集群你需要首先使用nn的格式化指令格式化nn,此时会产生一个gradid,之后先启动hdfs,在启动yarn。
可选择配置内容
配置历史服务器:
历史服务器可以查看程序历史的运行情况,我们在mapred-site中进行配置。
配置日志聚集:
将每台集群服务器产生的日志汇总成一个文件,我们在yarn-site中进行配置。
配置时间同步:
将一台服务器作为时间同步的目标,其他服务器每过一段时间将本地时间同步为目标服务器时间。
主要通过修改ntpd进程的配置文件来进行。
常用端口号