搭建大数据集群环境
准备知识
因为这个环境是在Linux操作系统下搭建的,所以等下需要改到一些配置文件。在Linux下默认是vi编辑器,所以我们先学习下vi的基本操作。
vi一共有三种模式:
-
命令模式
-
输入模式
-
底线命令模式
进入时为命令模式,按下i进入输入模式,改完后按ESC键返回命令模式,输入**:wq保存退出。:q!**是强制退出编辑,不保存。
然后在当前尽量不使用鼠标进行操作。目前知道这些就可以了。
一.配置Linux网络
搭建大数据集群环境喽,所以一台虚拟机肯定构不成集群,我们学习就以搭建三台虚拟机为例,我们也不用自己一台一台设置,直接克隆我们之前安装好的。
然后克隆好的他们的主机名是一样的,我们要进行更改(spark02是主机名)
hostnamectl set-hostname spark02
输入命令重启后,发现主机名更改好了。
reboot
输入
ip addr
记住这个,下面配置文件中的IPADDR的前三个 要与这个相同。第四个,建议三台虚拟机以递增的形式。
vi /etc/sysconfig/network-scripts/ifcfg-eno16777736
在复制的两台虚拟机中所需要额外的一步(修改网卡配置文件中的UUID)
sed -i '/UUID=/c\UUID='`uuidgen`'' /etc/sysconfig/network-scripts/ifcfg-eno16777736
重启网络服务
service network restart
最后
ping www.baidu.com
如果可以连通,就说明网络配置没有问题。(ping通后,按ctrl+z结束)在三台虚拟机上都要进行相同的网络配置
二.SSH配置
相信大家已经厌烦了那个黑窗口,非常的不方便。我们可以通过一款工具来让我们摆脱这个黑窗口。SecureCRT。可以自行到网上下载或者私信我。
如果连接不成功。如图
分别连接上三台虚拟机。
接下来进入正题:配置SSH免密钥登录功能
在三个虚拟机上都要这样操作。生成密钥文件,复制密码给其余两个和自身,实现双向免密登录。
三.配置时间同步
为了避免各虚拟机的时间出现不一致的情况而引发集群故障。本文使用的时间同步工具是Chrony。
-
先在三台虚拟机上安装
yum install chrony -y
-
启动Chrony服务
systemctl start chronyd
报错的主要原因是yum自动安装新版的Chrony,而我们使用的Centos版本不兼容高版本的Chrony,所以我们升级一下系统版本
yum -y update
升级好后再重启,再启动就可以了。
-
分别在三台虚拟机上查看启动状态并设置开机启动
# 查看 systemctl status chronyd # 设置开机启动 systemctl enable chronyd
-
关闭防火墙
# 查看 systemctl status firewalld # 关闭 systemctl stop firewalld # 禁止开机启动 systemctl disable firewalld
-
查看Chrony配置文件的默认内容
cat /etc/chrony.conf
-
修改配置文件,设置Spark01为时间服务器
vi /etc/chrony.conf
Spark01的设置
Spark02和Spark03只需要这两步就可以了
-
重启生效
# 重启 systemctl restart chronyd # 查看时间同步源状态 chronyc sources -v
就先写到时间同步,接下来就只是安装JDK和各种集群的部署了。