oracle 清理资源池,资源池裸金属实施管理手册

概述

文档包括 “上线实施” —— 含布线规则、BIOS设置、部署流程,三个阶段针对资源池各机型的不同实施方法;

“故障类型及处理办法” —— 含整个生命周期中会出现的 8 类问题、5 种异常状态,对应 28 种故障类型和处理办法

布线规则

千兆网线

1G-1 电口连接带外交换机,交换机端口配置裸金属 PXE Vlan(如 203)

万兆光纤

分为 3 种情况

两张 10G 卡 A & B

网卡顺序按照 slot 号从小到大,集成网卡排前

A 10G-1, 10G-2 –> TOR1

B 10G-3, 10G-4 –> TOR2

接线示例如下

10G-1 接 10GE/1/0/21 | 10G-2 接 10GE/1/0/32

10G-3 接 10GE/2/0/21 | 10G-4 接 10GE/2/0/32

一张 10G 卡 A

A 10G-1 –> TOR1

A 10G-2 –> TOR2

示例如下

10G-1 接 10GE/1/0/21

10G-2 接 10GE/2/0/21

一张集成卡

例如华为 RH2288v5 搭载的 X722 网卡,需要注意电口 1G-1 是第三个网口,前两个口为光口

布线类似 ‘情况 2’

BIOS 设置

BIOS 设置涉及启动模式、启动顺序、特殊机型设置

普适规则

启动模式: Legacy 模式

启动顺序: 1G-1 -> 10G-1 -> 10G-2 -> Hard Disk

特殊设置

不同型号服务器各有一些特殊设置

惠普 HP

惠普机型在资源池中包括 DL360 DL380 DL560 DL580

需关闭该功能,否则单张网卡反复轮询多次,导致部署环节超时报错

Network Boot Retry Support --- [Disabled]

具体配置文档见 [ 惠普DL系列BIOS设置(裸金属).pdf ]

戴尔 DELL

戴尔机型在资源池中包括 R730 R930

在 IPMI 管理界面开启

iDRAC -> 网络 -> IPMI 设置 -> 启用 LAN 上的 IPMI [√]

华为 HUAWEI

华为机型在资源池中包括 RH2288Hv3 RH5288v3 RH5885v3 RH2288Hv5

需要在 RAID 配置中,指定系统 BOOT 设备

v3 与 v5 BIOS 版本不同,设置方式有差异

此外, v3 版本启动顺序为 PXE -> Hard Disk ,不能指定 PXE 内部顺序,v5 版本可以

浪潮 INSPUR

浪潮机型在资源池中包括 NF5280m5 NF5288m5

需要注意 x722 网卡的顺序配置

具体配置文档见 [ 浪潮 NF5288 BIOS 设置(裸金属).pdf ]

曙光 SUGON

曙光机型在资源池中包括 W580 W720

网卡顺序需要在 ‘Network Drive BBS Priorities’ 处设置,’Boot Option #1’ 默认置为其中第一项(1G-1)

部署流程

整个过程共 7 个阶段,可参照 [ 裸金属部署工作流例表.xlsx ] 逐项递进

安全阶段

收集信息

包括 主机名,IPMI IP&Username&Password,机型,1G-1 MAC,共 6 项

Create nodes

注册节点阶段,将节点的主机名、IPMI 地址和账号录入数据库,指令为

# ironic node-create ...

Register port

将 1G-1 MAC 与新增节点相匹配,指令为

# ironic port-create ...

易错阶段

Inspect nodes

检查阶段,通过 1G-1 PXE 电口,传输镜像至目标节点,收集网卡,磁盘,内存等一系列主机信息

核心指令为

# ironic node-set-provision-state NodeName inspect

此阶段可能出现故障 1, 2

*注: 故障类型见下文

Set ports pxe

从 Inspect 阶段收集的所有网口中,筛选含有 LLDP 信息的连接端口

核心指令为 ‘ironic port-update PxePort replace pxe_enabled=true’

此阶段产生的结果若有问题,会在下一 ‘Create portgroups’ 阶段检查报错

Create portgroups

根据 10G 光口收集到的交换机端口信息,两两绑定后将信息写入 Neutron

例如,四个 10GE 光口

10GE/1/0/21 10GE/1/0/32 10GE/2/0/21 10GE/2/0/32

绑定规则

10GE/1/0/21 BOND 10GE/2/0/21 | 10GE/1/0/32 BOND 10GE/2/0/32

此阶段可能出现故障 3, 4, 5

Provide nodes

预部署阶段,通过 10G 光口,传输部署初始化用镜像,执行磁盘清理工作

核心指令为

# ironic node-set-provision-state NodeName provide

此阶段可能出现故障 6, 7, 8

故障类型及处理办法

共 8 种故障,及 5 种异常状态,具体分为 28 种故障原因

1 - IPMI 联通故障

状态:

enroll

故障原因 - 服务器 IPMI 管理线断连

处理办法: 检修管理电口

故障原因 - IPMI 上连带外交换机配置有误

处理办法: 检修带外交换机管理端口配置

2 - Inspect 超时

状态:

inspect failed

故障原因 - 1G-1 启动项在硬盘启动之后

处理办法: BIOS 中将网络启动调整至第一位

故障原因 - 带外交换机 PXE 口配置有误

处理办法: 检查带外交换机 PXE 端口 Vlan 设置

故障原因 - 1G 电口断连

处理办法: 检查接线、网卡状态,确保亮灯

故障原因 - 插错电口

处理办法: 检查网卡 port 编号标记,避免误插 2 号电口

故障原因 - 戴尔服务器 ‘LAN 上的 IPMI’ 未启用

处理办法: 在 IPMI 设置界面勾选

3 - 缺少网口

状态:

manageable

故障原因 - 光口松动、光模块故障、光纤故障、网卡故障、架顶交换机故障

处理办法: 检查接线、硬件维修,确保亮灯,重新 Inspect

故障原因 - 10G 光纤上连架顶交换机端口 LLDP 关闭

处理办法: 打开对应端口 LLDP 功能,重新 Inspect

故障原因 - inspect 收集信息不全

处理办法: 删除旧数据,重新 Inspect

4 - 网口数为 0

状态:

manageable

故障原因 - 环境变量有误

处理办法: 查看 Openrc 文件,确保 API 变量与当前版本一致

故障原因 - 新机型 x722 网卡

处理办法: 使用已补充 x722 网卡驱动的专用镜像

5 - 网口数过多且为偶数

状态:

manageable

故障原因 - 电口插线过多

处理办法: 拔除多余电口网线,保留一根 1G-1 即可

6 - Provide 超时

状态:

clean failed

故障原因 - 10G 光纤布线错误

处理办法: 参照布线规则重新整理

故障原因 - 架顶交换机 10GE/1 与 10GE/2 配反

处理办法: 重新配置架顶交换机端口顺序

故障原因 - BIOS 启动顺序 10G PXE 在 Hard Disk 之后

处理办法: 将 10G PXE 调整到 1G-1 之后,Hard Disk 之前

故障原因 - 单张网卡轮询

处理办法: 关闭网卡多次轮询选项,避免超时

故障原因 - 光口松动、光模块故障、光纤故障、网卡故障、架顶交换机故障

处理办法: 检查接线、硬件维修,确保亮灯,删除节点,重新添加

故障原因 - 3008 阵列卡对大硬盘不支持快速格式化

处理办法: 拔出数据盘,待业务部署完成后插回

故障原因 - 清理磁盘时间过长超时

处理办法: 重新 provide

故障原因 - 10G 光口频繁启停,触发架顶交换机关闭连接端口

处理办法: 检查 inspect 镜像,检修光口,开启架顶交换机端口

故障原因 - Provide 镜像不支持华为最新 3508 阵列卡

处理办法: 暂无法解决,等待 Ubuntu 驱动支持

7 - Kernel Panic

状态:

clean wait

故障原因 - 磁盘清理出错

处理办法: 重新 provide

故障原因 - 清理镜像运行中,硬盘故障

处理办法: 检修硬盘

8 - Provide 卡死

状态:

clean wait

故障原因 - PXE 载入镜像阶段卡死

处理办法: 检修服务器网卡

故障原因 - 磁盘清理镜像持续运行,未能自动关机

处理办法: 检查镜像是否匹配,检查硬盘健康状态

故障原因 - 浪潮 NF5280M5 机型使用 CPU 做系统盘软 RAID

处理办法: 无法解决

故障原因 - Conductor 端信息不同步

处理办法: 将该节点在数据库中状态改为 manageable,重新执行

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值