如何快速解决IT系统中的疑难故障问题

摘要:
不管是供应商还是用户,最棘手的事情莫过于系统故障的发生,这时,所有的压力都在IT人员身上,领导的关注、项目的工期、甚至能否顺利回款,都要看这些故障能否及时快速的解决。
本文根据笔者多年的工作体会,从心理、责任、沟通、求源、知识结构等多方面,将故障分析过程中需要注意的问题,进行总结归纳,与广大IT技术人员分享。

1. 前言
任何计算机系统都有出现故障的时候,可能发生在试运行的阶段,也可能发生在系统正式运行后,还可能发生在已经稳定运行很多年的系统上,又可能发生在系统一个小小的升级后。同时,系统故障带来的负面影响可大可小,大到整个系统瘫痪,所有业务不能办理,所有营业网点全部停业;小到仅仅是某一台终端的某一笔业务不能正常完成。

系统出现故障,就必须分析故障原因,并尽快的采取措施排除故障。一般来说,故障分析的难度与故障带来的负面影响不成直接的比例关系,整个系统瘫痪的原因可能在1分钟内得出:中心机房停电;某一笔业务不能正常完成的原因可能需要分析一天甚至若干周:在长达5万行的程序中有一个底层函数的一个输入参数少了一位的长度。与故障分析的难度成正比的,是系统的复杂度,这里指的复杂不是指设备的数量和软件的长度,而是指系统中设备的种类、软件的种类、涉及的厂商的数量。系统越复杂,涉及的设备、软件、厂家、人员就越多,可能带来的故障分析难度也就越大。

以Callcenter系统为例,它不仅仅包括计算机系统,还包括电话交换系统,其中设备、软件的种类繁多,技术复杂,包括:PBX设备、小型机设备、网络设备、存储设备、7号信令、CTI中间件、IVR中间件、交易中间件、WEB中间件、数据库软件以及C++/DELPHI/JAVA等编程语言,所涉及的供应商、合作伙伴、相关业务系统也比一般系统复杂。因此,类似这样的高复杂度系统,其故障的分析、排除就具有相当的难度。

系统故障的快速排除,需要企业有一套完整有效的协调机制和流程。现在,大多数有着严格质量管理体系的IT企业,都制订了自己的重大故障处理流程,故障分析就是其中的一个环节,也是最关键的环节。但是,由于故障分析本身涉及到更多的是技术细节和相关人员的综合能力,在流程之外,故障分析本身,又确实有其内在规律需要技术人员注意。

本文根据笔者多年的工作体会,将故障分析过程中需要注意的问题进行总结归纳,与广大IT技术人员分享,希望能给读者一定的帮助。

2. 必要的心理准备

2.1. 故障,总是会发生的,就算你全测试过。

软件工程师大多都是心地善良、充满自信的,在系统开发、测试的时候兢兢业业,一丝不苟,完全通过后,就放心的认为自己的系统已经固若金汤了。当系统发生故障以后,就觉得不能接受这样的现实,“怎么可能出错啊?不可能的!”,一旦确认系统出错后,又会很愧疚,“哎,怎么这么仔细还会出错啊?”,在心里产生挫折感。

其实,这两种心态都大可不必。复杂的软件系统,不管你代码质量多高,测试多完善,理论上,出错的可能总是存在的。出现故障了就尽快确认,接受这个现实,然后,不用多想什么,快速分析,排除故障,用户会理解你,甚至会感谢你。让用户感到烦的是出了错死活不承认,面对证据不能抵赖了,又束手无策的那种人。因此,最关键的是你要有这样的心里准备和能力准备,如果盲目的自信而且毫无准备,那到时候就难看了。

2.2. 故障,总是有原因的,就算你不知道。

计算机业务
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值