第一次用服务器集群,记录一下网络配置过程
服务器集群简介
超融合一体机,本质上还是几台电脑通过网线互相连接。但是配置起来和普通Linux服务器还是有一些区别
首先,最终的整个集群是要连到一个交换机上的,而外界也是通过该交换机与服务器通信。交换机上有部分接口是管理口,电脑通过管理口连接服务器的交换机,拥有的权限很高。但是交换机的管理口是不能联网的。要联网的话,还是得把交换机普通的口连接到路由器。
本服务器是由三个主机构成,分别是两个纯cpu主机和一个包含了gpu的主机
但是这三个主机会有一个manage的ip地址,例如我的manage ip是192.168.10.101,而另外两个cpu主机和gpu主机分别是102, 103, 104
如果要直接通过管理口控制服务器,可以先把自己电脑的网段设置为192.168.10.x,然后ssh登入192.168.10.101,再在manage里面ssh登入cpu或gpu主机。例如,如果我们要安装CUDA,我们必须进入GPU主机去安装驱动。
[pcadmin@manage ~]$ ssh pcadmin@192.168.10.104
#登入gpu主机
服务器联网
需要指出的联网这部分我都是在manage上操作的
我的服务器网段和路由器(上网)不同,但是服务器已经配置好了集群管理软件。为了减少不必要的麻烦,我选择调整路由器ip到192.168.10.254。接着从服务器交换机的普通口拉根线到路由器,此时从服务器依然没法ping通192.168.10.254.
经检查,服务器在安装集群软件时,给交换机配置了vlan,要上网得重新配置。
这时候就需要一根奇怪的串口线了,搜USB转RJ45 console线就能搜到
在工程师帮我配置好vlan后,终于可以ping通192.168.10.254(路由器ip),并且可以ping通114.114.114.114
但是,奇怪的是,当我ping www.baidu.com时,出现了错误
显然,问题还是出在DNS配置上。
接下来以root身份登入,使用nmtui命令来配置网络,运行nmtui后可以得到如下界面
选择edit a connection,可以看到里面有许多项
这里我发现System ens65f0这一项用的是个无效的网关,ping不通它,故delete System ens65f0这一项。
使用route -n可以查看当前网关情况
而我要配置的上网的配置是eno1,对此我的理解是eno1就是manage的,只要配置好它之后,cpu和gpu的主机就能实现上网。后来确实发现cpu和gpu主机的nmtui里面的配置自动就和manage同步的。而manage的nmtui里面信息我填写为如下
保存设置,并且运行以下命令来deactivate再activate一下网络
nmcli c d eno1; nmcli c u eno1
之所以用分号连起来写在一行,是防止断网,还得跑机房一趟
但是当配置好后,运行cat /etc/resolv.conf,发现并没有网络配置信息
ping www.baidu.com还是报错。
于是手动在/etc/resolv.conf中写入如下内容(先切root,否则无法保存)
options timeout:2
nameserver 192.168.10.254
nameserver 114.114.114.114
第一个nameserver是我路由器的ip地址
保存后突然ping通一次,但是紧接着第二次又无法ping通。重新检查/etc/resolv.conf,发现配置的两行nameserver又消失了。显然是有软件在nmtui修改过/etc/resolv.conf后又对它进行了修改。盲猜是集群管理软件的锅。
但是我不清楚集群管理软件那边怎么设置,于是我直接将/etc/resolv.conf设置为禁止修改,具体操作就是,在重新配置nameserver后迅速运行以下指令
chattr +i /etc/resolv.conf
重启网络,发现依然能ping通。一切终于搞定