网络故障管理
故障管理是网络管理员中最基本的内容之一,网络故障管理的目的在于防止类似故障的再次发生,确保网络系统的高稳定性。网络故障管理是相当重要的。
在网络出现故障时,一般情况下,网络管理员应报警。网络管理员应执行一些诊断测试来辨别故障原因。网络管理员必须及时发现故障部位,对所有节点动作状态的监控、故障记录的追踪与检查,对网络系统测试。
网络发生故障可能会对社会或产生带来很大的影响。但在发生故障时,往往不能具体地确定故障所在的准确位置,而需要相关技术上的支持。因此,需要有一个故障管理系统,科学地管理网络发生的所有故障,并记录每个故障的产生及相关信息,最后确定并改正哪些故障,保证网络能提供连续可靠的服务。网络故障管理包括故障检测、隔离、纠正、分析故障原因、网络故障报告和设置优先顺序。
1.故障检测
故障检测时按照顺序列出可能的原因,第一条是最有可能的原因,最后一条是最不可能的原因。然后逐条测试,看看是不是这种原因造成的问题。例如,如果怀疑计算机中的一个网卡是造成问题的原因,那么就用一个正常工作的网卡来替换它进行测试。故障检测要做到:
接收故障发生错误的检测报告并做出相应;
分析故障发生情况,制定排错方案;
使用各种故障诊断工具,执行诊断测试;
确认故障类型及性质。
2.隔离
启用备用线路或设备,进行故障隔离。
3.纠正
跟踪、辨认故障
进行故障追踪定位
根据故障分析结果,制定并实施解决方案
4.分析故障原因
根据网络系统故障的类型及发作频度,分析故障产生的原因和故障性质,预测将未来网络故障的发作趋势,建立故障报警数据库,通过对历史故障警报资料的统计分析,寻找网络故障发生的规律,建立故障预防体系,制定并实施解决方案。
5.网络故障报告
通过各种途径报告网络故障。
网络故障自动报警,具有自动通知的手段,包括寻呼机、手机、电子邮件等方法。
根据网络故障的危害程度将报警指示分级管理,系统根据故障级别做出不同反应。
6.设置优先顺序
解决网络故障问题的一个基本要素是设置优先顺序。每个人都希望自己的计算机最早修好,所以设置优先次序并不是一件容易的事情。尽管最简单的方式是根据先到先服务的原则,但这并不总是可行的,因为某些问题与其它问题相比可能更重要。所以,第一步是根据问题的重要性设置优先顺序。
网络故障的定位
网络是一个动态系统,若干离散的部件在一起工作以形成一个功能整体。
故障定位是在部件基础上进行的3个步骤。
1.确定该问题的实际性质
一个应用程序引起的故障问题
服务器和客户机之间不能通信引起的问题
服务器自身崩溃产生的问题
服务器屏幕上的黑屏或一条消息
应该做出如下考虑:
服务器或某客户机可能简单挂起,或者没有留下任何线索而不能运行
如果还有客户机在运行,对这些客户机做个记录
如果该问题仅限于一台客户机或相同硬件相连的一组客户机,首先怀疑这个硬件。
如果该问题影响所有的运行某个程序的各台客户机,那么该程序可能是祸根。
如果没有一个客户机能够访问该服务器,则可能是该服务器中的LAN信道(网络操作系统、LAN驱动程序、网络接口卡、电缆系统、路由器等)出了问题。
也要考虑自从该网络上次正常工作以来,是否已经改变了什么。
如果服务器不能再运行,重新启动它并且看问题是否再次出现。
以相同方式重复出现的问题比没有什么规律出现的问题更容易确定。
试图用另一个应用程序或不运行任何程序时重现该问题,这能够帮助决定该问题是否与一个特定的应用程序有关。
一旦已经注意到了能够观察到的一切现象,就可以准备对观察到的症状凭借经验进行猜测。
2.隔离该问题的原因
服务器或某客户机可能简单挂起,或者没有留下任何线索而不能运行。考虑的问题如下:
该机器还有电源补给吗? 该问题出现的实际内容
该显示器仍然有效吗? 问题发生时网络上的活动
该计算机还接收键盘输入吗? 服务器上正运行的应用程序
磁盘驱动器的灯还闪烁吗? 注册用网的用户数量和动作
遵循所述确定可能的根源后,准备执行涉及这种可能的原因的各种测试。这样做,应当能够总结出其假设是否正确。
3.解决该问题
解决问题的主要手段是找出问题、得出结论、故障排除。
(1)找出问题
用能够确定是正常工作的类似部件来替代怀疑有问题的部件。
在熟悉每个部件的性能,了解它们可能会引起什么样的问题后,这个方法比较有效。
如果怀疑是一个硬件问题,去除这个值得怀疑的部件并且用一个相同的部件来代替,看看是否有所改变。
如果只是增加一个新的硬件,则先替换该部件。
网络的一个优点是通常在LAN上的另一个客户机中又可供使用的类似的网络硬件。许多有经验的人会备用设备储备,就不必从运行的机器上拆除。
(2)得出结论
进行每个试验,必须确定该嘉定是否正确。如果正确地执行了其它步骤,这个步骤通常最为直接。
如果问题依然如故,则可判断该假定是不正确的。
如果该问题已经消除,则知道已经找到了问题的根源
一种最为麻烦的情况是,当改变部件之一后,该问题依然存在但外在表现形式却不同。
对一个具有可能不熟悉的测试结果的事件,必须扩展或修订关于该问题的方法,因而能够更好地将观察到的结果与其症状联系在一起。
如果一个测试的结果没有得出结论,必须更为详细地关注该症状且形成另一个假设。在大多数情况下需要在重新检查该症状之前,改变该问题的环境。
例如,可能要从一个给定的系统中检测、隔离和修理故障的过程。
网络故障定位是一项综合性的技术,涉及网络的方方面面。
操作
ping
connect
show
verbose
保存到桌面
分类
邮件服务
新闻服务
Internet代理服务器
计算机信息
操作系统
Windows版本
调制解调器
网络用户