全新申请的物理子系统上线,软硬件实施规划任务、投产任务落在自己身上,百般滋味。
上线后,进行本次总结:
1、充足、有利条件:
1.1、虚拟机资源充足,1000C4000G的量,配合系统盘50*100G,也就是不超过50台内,可灵活调配;数据盘平均每台规划500G。
1.2、数据中心专门划定4位同事协助网络搭建、cvm主机搭建、GPU物理机规划与实施。
1.3、k8s团队的鼎力支持,各团队领导的口头支持。
2、不利条件:
2.1、各个团队都是首次合作,同时还有其他任务,作为主牵方需要独立决断,详细的问询才能拿到最完美的规划结果。在合作方式、合作过程中各种规章制度、新技术的选型与细节确认、各团队的利益诉求、可能的小摩擦都随时有爆发冲突的可能。
2.2、时间紧任务重:要求在1周之内规划并实施。
2.3、本人对k8s的要求和运行方式也不熟悉,属于初次接触,需要快速了解。
2.4、没有主账号权限:因为团队合作职责划分问题,主账号权限未在自己操作范围内,各种操作需要账号方协助支持。
2.5、 互联网域名、证书、公司的网络规划要求、负载均衡细节、与其他系统打通方式,均未明朗。需要逐个确认,且符合公司各对应处室要求。
2.6、投产上线要求走正规投产流程,以前较为宽松,年底各个部门收紧,对项目组来说是巨大阻力。
3、实施过程:
3.1 、首先创建k8s集群主机,以及相应的互联网区负载均衡主机、内部网络负载均衡主机,堡垒机(运维用)。
该过程主要考虑几点:
1、最小可用集,最佳可用集。每台主机的cpu、内存、硬盘的规划、存储分区的规划、应用用户权限和使用范围规划。
2、配合网络规划,将不同功能主机分置于不同网络段。不同子网间数据传输方式。
3.2、网络规划与要求:
根据业务要求,划分为3个区域:
互联区:一方连接开放区,一方暴露到互联网。
开放区:各种业务功能实现区域。
外联区:一方连接开放区,一方暴露到办公网。
负载均衡:哪个需要,哪些功能主机需要负载均衡,确定负载均衡的对应主机和数量。
每个区域每个子网间,是单向还是双向,虚拟机需要端口访问策略和出入站规则,物理机无此类选项。
3.3、域名和证书配置,网络访问关系开通:
域名申请和网络访问关系,需要提前一个月以上申请,且域名在前,网络访问关系在后,故需要有45天以上时间进行准备。其中域名和网络访问关系,需要受到总公司监控和开通,域名申请在开通公网访问时会用到。证书较为简单。
证书配置在互联区clb处,各区间主机,无需考虑外网的https加密问题,否则会相当麻烦。
公司内部各子系统间交互:有网络对等连接和开通ip访问关系两种,若双方有需求,需要开通对等访问。若一方提供服务,则直接开通内网访问关系即可,如sso登陆。(此处本次实施未完全符合预期)
物理机访问关系,单独提出的原因:因为本次物理机主要为GPU算力,对网络传输要求很高,故采用同物理区间部署,尽量在同一交换机内部的做法。有效控制网络带宽。万兆以太网交换机是最基础设备。未采用最新的ib网络。
3.4、基础软件安装:
3.4.1、GPU驱动:
K8S对应的GPU软件单独安装。
总结:gpu集群需要配备大容量磁盘,只是传统的k8s计算节点玩法,会导致超大镜像拉取困难。需要对cpu、内存、网络、存储、各部门能力有较清晰认识,不能推脱或指望其他人主动,对每个团队的工作进度需要有明确了解,防止出现积压。努力牵头。
原文链接:一次上线的软硬件规划过程