对于不同类型的故障我们处理的方法和切入点是不同的,所以可能出现的故障分类有: 云平台自身故障: openstack服务组件故障,流量突增,云主机物理故障,遭受网络攻击等。 客户反馈的故障:云主机无法远程登录,资源空间不足等。 排查故障时会用到的工具有:远程登录终端,监控工具(Zabbix、Cacti、Icinga),SVN,工单系统。 对于所有的故障排查,在不是十分紧急的情况下,都须先在工单系统上建立相应故障工单。
一、云平台自身故障排查流程。 1、openstack服务组件故障。 (1)根据监控系统触发的报警信息定位是哪个节点上的哪个服务组件出现问题。 (2)使用远程登录终端登录云平台后台控制节点CLI界面(参见后台登录方法)。 (3)查看相关服务组件的log文件,各服务组件日志存放位置 /mnt/state/var/log/ (4)如果日志信息在控制节点上没有,可登录到相应的计算节点上查找日志信息(参见计算节点登录方法)日志存放路径:/mnt/state/var/log/。 (5)根据日志信息以及故障症状来排除,修复问题,并将解决问题的思路及过程追加记录到工单上或输出文档提交到禅道知识库中。 (6)如果是之前出现过的故障可以参照Confluence系统上运维指导来解决故障。 (7)如果故障无法解决需要升级的,处理人员需收集好故障信息,并做详细的说明,以邮件的形式来升级到L2团队来寻求帮助,同时要做好问题进度的跟踪。 2、流量突增问题解决流程。 当有监控系统报出平台流量突增的问题时按照以下流程处理: (1)有流量突增情况时要根据Cacti监控工具来记录事件发生的起始时间,并确定是平台进口还是出口流量的突增。 (2)若是出口流量突增导致平台网络堵塞,先登录平台进出口交换机(118.192.8.1)来收集一下端口流量信息,找出端口流量大的,根据平台端口连接信息表进而确定该端口下连接的物理计算节点。 (3)利用Zabbix监控,找到上面找出的计算节点,并调出监控到的该节点上云主机的网卡流量图,确定具体云主机后,和云主机所属租户取得联系,确认是否是正常流量,如若不是则通知客户进行修复,在取得客户同意的情况下可以选择释放FIP来切断外网连接。 (4)取得客户正式授权协助客户解决故障问题。 3、云物理主机故障排查流程: (1) 通过监控工具Icinga来查看物理服务器资源使用情况以及服务器的up/down状态。 (2) 通过远程管理界面ILO来查看物理服务器的电源,温度,内存等资源状态信息。ILO管理界面使用请参见ILO登录方法。 (3) 需要IDC托管中心协助查看相关原因的可以电话联系。
二、客户报障故障排查流 1、接由客服人员建立的,需运维人员协助处理的工单。 (1)迅速审阅工单记录信息,了解客户报障问题。 (2)需要客户提供更为详细的故障信息时,可首选电话沟通(没电话可邮件)需客户提供故障前执行的操作,及故障后执行的自查操作的结果信息。 (3)利用自身工作平台来对问题故障进行快速定位和分析。并以邮件形式将处理结果反馈给客户。 (4)如果因为权限限制而无法精确定位故障,则可给出故障排查操作建议,详细写明在邮件里,指导客户方人员来进行操作执行。 (5)如果客户方需要我方运维人员协助操作处理,则需取得客户对操作人员的正式授权(邮件形式)通知,进而获取到客户云主机登录的账号或秘钥。 (6)故障处理过程中信息沟通以电话为首选,故障得到解决后及时反馈(邮件形式)最终结果(给出故障产生,解决的原因)给客户。 (7)在工单上完善处理故障过程。 (8)取得客户对故障处理结果的确认。 (9)移交工单到部门客服。 (10)客服人员进行工单跟踪回访,经客确认故障已解决,则可关闭工单。
2、由运维人员接到客户报障建立的工单。 (1) 建立工单。详细记录客户反馈的故障信息(需客户提供故障前执行的操作,故障后执行的自查操作的结果信息)。针对紧急故障,可先处理故障,问题解决后补建工单。 (2) 利用自身工作平台来对问题故障进行快速定位和分析。并以邮件形式将处理结果反馈给客户。 (3) 如果因为权限限制而无法精确定位故障,则可给出故障排查操作建议,详细写明在邮件里,指导客户方人员来进行操作执行。 (4) 如果客户方需要我方运维人员协助操作处理,则需取得客户对操作人员的正式授权(邮件形式)通知。 (5) 故障处理过程中信息沟通以电话为首选,故障得到解决后及时反馈(邮件形式)最终结果(故障形成的原因)信息给客户。 (6) 在工单上完善处理故障过程。 (7) 取得客户对故障处理结果的确认。 (8) 移交工单到部门客服。 (9) 客服人员进行工单跟踪回访,经客户确认故障已解决,则可关闭工单。