关闭

网络医院的故事----连载6

670人阅读 评论(0) 收藏 举报

[故事之十九]电梯动力线干扰,占用带宽,整个楼层速度降低       
[症状]某大型家电制造企业计算机中心主任,今天极其沮丧地了报告了该公司的一起顽固的网络故障。该故障表现虽奇特但比较有规律,具体表现是:公司主办公楼的网络在员工上班的时候运行速度会变得很慢,下班后速度回升,有时基本上能回复到往常水平。故障时间大约三个月,准确“发病”的日期已无从记起。每天上午8:00左右开始发作,症状范围是三楼的整个楼层,现象是速度突然变慢,无论是从互联网上下载文件、收发电子邮件都很慢且经常中断和出错。本楼层中的用户之间在传输文件时、与其它楼层的用户传送文件时或是其它楼层的用户与本楼层的用户交换文件时都要用很长时间,但其它楼层的用户之间互相交换文件则不受影响。第一此发作,故障一直持续了三天我们也没有查明原因。由于三楼是公司设计开发部门,每日都要使用网络环境进行大量的数据交换、资料查询等工作,为了不影响新产品开发进度,当时将研发部的工作时间暂时推迟到下午6:00上班。两周后情况仍未见好转,故障仍然存在。不得以公司决定将研发部与二楼的行政管理部门临时对调,以保证已经开始习惯于上“夜班”研发部员工正常的作息时间。谁知一“临时”就是三个月之久。网管人员将布线系统、网络平台、所有主机和服务器、路由器都彻底检查或互换过,一直未能查出故障琐在。听某知名系统集成商介绍可能是电缆系统的问题,随即将布线系统进行了一次认证测试。结果还真的查出了不少严重问题。比如,原来的5类线系统全部不合格,系采用假冒伪劣的5类线,现场测试只能通过三类线指标。为正宗的“假货”。接插件和模块也大部分不能通过5类线标准测试。进一步对整个大楼的布线进行检查,发现与三楼的情况相同。公司网络基本上还是10Mbps系统,工作一直正常。由于布线工程是三年前做的,现在已经无法联系上当时的系统集成商。公司董事会责成计算机中心将整个布线系统全部更新。经过一个月的紧张施工,工程于前天结束,满心希望通过这次工程能将原有的故障及隐患彻底清理干净,谁曾想,昨天开机调试系统时发现原来的故障依然“顽强”地存在!虽想尽了办法,面对我们的艰苦努力,第三楼层的网络系统仍“无动于衷”。计算机中心的全体员工均感倍受打击,且愧于无法向研发部的员工和董事会“交差”。

[诊断过程]        根据以往的统计,越是顽固的故障对“网络医院”来说往往越可能是最简单的“病因”引起的。从“病人”“主述”的情况看,布线系统还存在问题的可能性不大。由于网络的设备都经过多次的检查,发生问题的概率应该是比较低的。如果说是网络有关平台安装、应用软件安装和使用以及路由通道等方面的有问题,那么其它楼层的用户应该有类似的问题。分析故障出现的特点,由于故障出现的时间是上班时间,所以故障原因应该与某些定时工作的设备或工作环境有很大关联性。故障造成整个楼层速度受影响,为公共部分故障的概率较高。根据计算机中心主任介绍,包括其它楼层在内的每台设备都进行过逐个关机筛选检查,每台供电设备都进行过替代检查,所以可以保证设备都是正常且合格的。
        分析网络的拓扑结构,每个楼层都是用集线器搭建的10Base-T传统网络。各楼层以及邻近大楼的网络用户之间用一台故障前添置的核心交换机连接起来,端口为10Mbps,路由器与核心交换机经过128k帧中继链路与Internet连接,其它分部及分公司则用DDN和ISDN、VPN连接。在计算机中心设有一台网管机,但没有配置其它维护工具。由于故障只影响一个楼层,很可能是在一个碰撞域内的问题。因公司网络与Internet相连,所以我们从网络医院对该公司的网络先简单地做一下远程诊断。启动网络测试仪F683的便携网管功能,由该中心主任输入其公司路由器密码后,查看路由器和交换机的端口管理信息库,结果发现交换机上与三楼连接的接口存在大量碰撞和错误帧记录。数据如下:流量2%,错误为35%,其中CRC错误占83%,传输延迟96%,碰撞10%。中心主任说从网管机上也看到过类似的数据,只是不清楚其含义,也不知道这些数据会与故障诊断有关(网管机从来不用)!我们需要确定这些数据的具体来源,故第二天抵达现场进行测试。
        将网络测试仪F683接入三楼网络观察,显示网络流量在67%~95之间摆动,错误的流量则在60%~90%之间摆动。其中多数为Ghost错误,占错误流量的77%,其次为碰撞和FCS帧错误,合计占23%。Ghosts错误(幻象干扰)一般指示网络存在严重的干扰。由于干扰比特没有以太网的帧结构特征,在碰撞域内又可以随处游荡,所以这类故障在没有测试工具的条件下一般很难进行诊断。
        用F43电力谐波分析仪测试供电质量,谐波含量指标较大,但未超标,说明电力质量尚可。用场强计测试970MHz以内的空间电场强度,合格。那么干扰信号是从何处进入网络的呢?一般可以用如下方法检查:检查接地系统,检查设备接地,检查周边大型用电设备,检查无线通信环境,采用“二分法”断电检查串入位置。从故障的特点看,为定期定时故障发生,所以与周边大型用电设备的关系比较大。由于是办公楼,大型用电设备一般以空调、电梯和照明系统等为主,故决定先将电梯、空调等供电系统切断。当切断电梯电源时,故障消失。重新接通电梯电源,故障重现。说明接地或布线系统串如了电梯动力强干扰谐波。检查三楼布线系统,发现一台饮水机的用电电源与布线系统走线槽在一起。立即测试饮水机电源,发现大量高强度干扰谐波,请电工从配电室切断这条电缆,故障消失。
       
[诊断评点]故障原因是电梯动力干扰经过新散装的饮水机电源线传递到网络布线系统,致使网络中的干扰比特流量占很大数值,争用网络有效带宽,破坏网络正在传输的有效数据(表现为大量的FCS帧错误),使得网络速度大大下降,网络“垃圾”骤增。由于电梯在上下班时间一直有人使用,所以网络工作也“定期”受到严重干扰。下班后,电梯运行频次降低,干扰减少,网络逐步回复到正常运行速度。
以下是电工和研发部员工的回忆。
原来,为了改善工作环境,公司于三个月前为每个部门和科室配备了冷热饮水机。由于三楼休息室电源插座无电,电工检查后发现该插座的电缆没有与配电盘相连(建筑施工时遗留问题),于是随意将其联线的远端连接到电梯供电动力线的配电盘上为饮水机供电。当时正值炎夏,员工们本来好不开心,心想从此可以随意冷热饮“自助”,没料想却是从此恶梦不断,网络工作异常,严重影响到了他们的正常工作和生活。
没有人记得这条供电电缆与布线系统安装在了同一个线槽内,并与三楼布线系统穿入同一根PVC管内。本来,有一次机会可以解决故障,那就是如果在这次网络更新工程时能严格地按标准化施工,那么这根电源线将会被分开安装,更新后的网络便可能正常运行。另外,由于有多根网线同时受到干扰,所以在采用“二分法”分割故障区域时只能得出干扰与设备数量有关系这一模糊结论,此非但不能有助于定位真正的故障部位,反而可能将故障诊断工作复杂化。
       
[诊断建议]标准化设计、标准化施工、标准化验收(认证测试)是保证网络工程质量的重要手段和方法。其中一条就是要求动力线和计算机网络布线系统必须分开走线。如果采用金属穿管的方法近距离屏蔽,则金属管必须要有良好的接地措施。否则极易获得“得不偿失”的回报。
测试统计显示,现阶段并不是所有动力线谐波含量都很大,多数动力线谐波含量还是很小的。但用电环境的变化趋势是非线性用电设备的用量越来越多,谐波污染也会越来越严重,且呈加速趋势。为了避免后患,还是少存侥幸心理为妙。

。。。。。。。。。。。。。。。。。。。。。。。

[故事之二十]网络黑客程序激活,内部服务器攻击路由器,封闭网络
        [症状]某大型连锁超市集团计算机中心中心IT经理钟小姐,今天上午向网络医院报告网络出现严重故障。其中心网络的局域网速度很慢,与各地连锁店管理中心的资金结算和物流调配速度更慢。故障开始出现于两周前,先是感觉网络运行速度有明显下降,而后病情一天天加重,直至今天基本上处于近似瘫痪状态。内部数据调用需要3分钟(以前只需要3秒钟),与其它连锁管理中心之间每笔业务结算和物流配送出入栈登记都要花费差不多2分钟时间(以前只需要最多5秒钟)。造成大量货物配送无法履行相关手续,部分连锁店被迫采用手工记帐接受货物配送,大多数连锁店则大大减慢了货物配送的进程,超市货架已有不少断档供应,人手紧张。
钟小姐介绍,由于货物配送出入栈登记和结算中心设在中心网络,所以他们的网络维护人员最先对中心网络执行紧急抢修程序。Ping测试所有重要的服务器、路由器、外地路由器、外地服务器,结果都在15ms以内。说明联通性还基本良好。关闭中心网络系统,暂时停止业务,再重新启动运行。刚开始速度还比较快,但很快就在10分钟内迅速下降至病态水平。全部启动5台备用服务器,顶替原服务器当中的5台投入运行,网络速度有明显提高。不过好景不长,约2小时后,从网管系统观察,服务器流量比平常高,路由器流量基本满负荷。关闭一半的服务器和站点,网络速度有所提高,似乎网络流量与站点数量有关联,所以无法定位网络故障的准确地点。于是怀疑是否是有“病毒”在做崇,将所有站点和服务器用多种查杀毒软件杀毒,启动系统后故障依然如故。
       
[诊断过程]故障地点可能就在中心网络,但也不排除受其它远程网络影响的可能。所以从网络医院出来我们决定先前往该超市集团总部的计算机中心网络所在地。30分钟后我们抵达了目的地。我们将F68X网络测试仪接入中心网络交换机进行观察,逐个观察核心交换机和工作组交换机每个端口的Mib代理,发现除了端口流量偏高外,网络一切正常。不过,也发现一个奇怪的现象,那就是各端口的流量都基本相同,为50%~60%左右;询问钟小姐有无以前的基准测试记录和近期的网络健康测试记录,回答是没有。本网络自半年前建成以来一直工作优良,偶尔出点小毛病网管人员很快就能解决,所以除了机器档案和网络结构拓扑图外,再没有其它网络维护的文档。
        可以肯定的是,如此高的网络流量必定意味着某种故障的存在。我们此时需要确认2点:一是网络平时主要的工作协议是哪些,二是这些流量是否是正常工作所需的流量。而这些数据都是该网络现在无法提供的。为此我们将F69X流量分析仪接入全部8个服务器和交换机之间,观察网络主干流量的应用流量分布。结果如下:各服务器均接受大约50%流量的cc:mail数据包,其它按服务器编号依次是Oracle应用占3%,HTTP应用占2%,MS-SQL server应用占1%,DNS应用占1%,Oracle应用占0.5%,Informix应用占0.1%,FTP应用占0.7%。可见影响网络流量的主要是cc:mail应用。
        观察cc:mail数据包的对话情况,基本上中心网络内的站点和服务器都有记录,并且有通过路由向外发送的数据包,这也就是说,中心网络的每个成员都在向该局域网内的所有成员发送邮件数据包cc:mail !问题是,这些邮件数据包是如何进入各服务器和工作站的。我们同网管人员一起回顾了一下病情发作过程,今天是1月13日,故障是2周前出现的,也就是2000年元旦前几天开始发病的。我们请大家一起帮助回忆是否在网络上运行过非法软件,包括贺卡之类电子的邮件。钟小姐回忆当时曾发现网管人员互相传阅过一个很有趣的电子圣诞卡,钟小姐本人也很喜欢这张贺卡,但出于职责和管理制度的规定还是制止了。会不会是这张卡在“作怪”呢?
        我们选择3台主服务器和10台站点作格式化硬盘并重新安装系统,将备份数据还原到服务器中,此时只允许远程连锁管理中心与计算机中心的3台服务器进行业务数据传递和计算。其它服务器和工作站则暂时关机。启动系统进行正常操作,同时监测交换机相应端口的流量,均小于4%。网络一直工作正常。这说明格式化以后的服务器不再运行cc:mail应用程序。坚持到晚上22:00所有连锁店打佯,启动未曾格式化的服务器和工作站,并请下辖11个远程连锁管理中心网管人员配合模拟进行网络业务操作,约10分钟后,端口流量开始迅速上升。从流量分析仪上观察到的现象是:非法的cc:mail应用流量首先从6号服务器,然后紧接着从17号、42号、31号工作站和其它服务器陆续出现。在出现cc:mail应用流量以前均有FTP协议应用流量出现。检查这几台机器均安装运行过贺卡程序“My World Is In Fever”。
        现在,我们可以得出初步的诊断结论了:首先,非法的网络应用可能从贺卡开始,然后在数据交换的时候“Fever”程序自行展开成为黑客程序,对准所有有过数据交换的站点发送cc:mail应用数据。由于该程序具有传染性,很快局域网内的所有站点都会感染上此黑客程序并依次发作。由于应用流量设计不是很高,所以发作过程相对较长,每个交换机端口通过的流量也基本对等,表现为50%左右。将捕获的数据包进行解码分析,邮件为单向传输,无回应。内容循环显示为:
“My world is in fever ,I love you”
        停止网络运行,将所有网络设备断电(包括路由器),并将所有服务器和工作站格式化,将人员分组,重新安装系统和应用程序,恢复备份数据,经过近4小时的紧张工作,于次日7时重新启动网络运行。至中午12:00监测的数据流量端口小于5%,服务器小于4%。
       
[诊断评点]网络应用中的危险因素很多,为了净化网络环境,最起码的要求是不允许在专用网络上运行任何非法程序和盗版软件。本故障由于网管人员私自运行了携带黑客程序的软件,导致网络遭受高流量冲击,几乎近于瘫痪。本黑客程序的发作机理比较隐蔽,先逐个感染局域网内的服务器或工作站,然后逐渐在有数据应用时展开程序进行流量争用,使得网络流量逐渐增高。路由器采用的是DDN和部分ISDN链路,因瓶颈效应的存在更容易被堵塞。所以网络速度表现为局域网速度变慢而广域链路则更慢。由于网络流量分布比较均衡,所以当网管流量报警门限设置比较宽松时,网管系统将不会出现报警信号(该网管没有进行报警门限设置)。而此时网络的总体流量负荷却已经接近于极限值,路由通道更是拥挤不堪。
       
[诊断建议]基准测试是网络定期测试的项目之一,坚持基准测试可以帮助网络维护和管理人员掌握网络的变化趋势和故障出现的方向和规律。比如,基准测试数据显示网络平时的平均流量小于6%,网络工作协议共有15种,那么当流量出现超过6%时就能引起网管人员的注意并即时监测其变化,核对工作协议以确定是否有非法协议运行。以“此案”为例,网络合法的工作协议中并没有cc:mail协议,而此时出现了这种协议,网管人员就必须立即对其进行清理。比照网络基准测试的文档备案资料,本故障本可以立即得到纠正;另外,流量管理是网络管理进行到高级阶段时必须实施的监测和管理手段,对于监测网络应用、跟踪黑客、净化网络协议、查找网络疑难故障、介绍网络运行费用、优化网络结构等都有着非常大的帮助。最后,从预防网络故障的角度出发,加强内部管理,加强用户教育的工作要始终认真坚持并严格执行。

。。。。。。。。。。。。。。。。。。。。。。。。。。

[故事之二一]“水漫金山”,始发现用错光纤接头类型,网络不能联通
        [症状]某新落成的甲级办公大厦,按智能大厦标准设计,其中的计算机综合布线系统包括用超5类线和多模光纤组成的水平及垂直布线系统。全部电缆系统都经过了严格地选用的超5类线现场认证标准进行的验收测试和检验,现正在一边招商一边调试网络及通信系统。智能控制系统的多数信道均采用IP协议,并将原设计的各自独立的17个分系统的控制平台重新设计和整合为同一个快速100Base-Tx以太网,这样大大压缩了网络系统的造价。今天该大厦工程的布线集成商向网络医院求诊,报告其66层的网络联络中断,无法调通,而以前一直工作正常。故障开始于前天上午,第66层的网络系统用户无法与其它楼层的用户联系,也无法通过大厦的帧中继专线与互联网联接。第66层通过一对200米的多模光纤链路与2楼的网络监控中心联接,经过检查发现设在40层的光缆转接箱内的接头被上层楼面的溢水事故所污染,工程人员临时改变光缆走向,将光缆用一段跳线从另一弱电井中绕道联入,采取这样的措施后只增加了约30米的光缆长度和一个光接头。根据估算应该可以联通。原先被污染的光缆接头也已经更换,但网络仍然无法实现联接。
       
[诊断过程]从故障统计的规律看,一般在网络维护的过程中,维护人员动过或更改过的地方故障出现的概率比较高,此即所谓“动哪儿查哪儿”的故障诊断顺序第一原则。根据报告的故障情况初步判断光缆出问题的可能性比较大,当然也不排除网络设备的问题,比如光卡、交换机等同时出现故障的可能性(今天的检查过程中维护人员也插拔并检查过光卡)。20分钟后,我们抵达目的地,我们将网络测试仪接入2楼网络中心,检查网络工作状态,正常,只是无法发现66楼的用户。电话询问66楼用户,回答说平时虽然能联通,但也不是十分通畅。有时速度会很慢,偶尔还会出现连接中断的现象。我们将电缆测试仪换上多模光纤测试模块,主机移动到66楼,远端机留在2楼对这对光缆链路进行测试。A光缆测试衰减值为3.7dB,B光缆衰减为7.8分贝,虽然B光缆的衰减相当大,但因为还在一般光卡允许的接收灵敏度范围之内,应该不会影响光卡的信号接收,除非光卡正好也有灵敏度方面的问题。为了简化诊断程序,我们用邻近的光卡做替换试验,将2楼和66楼的光卡同时更换,然后从66楼用网络故障一点通(One Touch)接入网络进行测试,结果是可以发现本楼层
的用户,但还是无法找到其它楼层的任何用户。这说明故障仍然在光缆链路,或者是交换机的光卡接口有问题。为了确认故障的准确地点,我们从另一弱电井倒换出一对光缆代替这对光缆,并用跳线将原来的光卡连接起来,当光卡插入交换机后网络立即恢复正常。这说明交换机及其光卡和光卡接口是正常的。重点还是要检查这对光缆链路。重新测试的结果与上此测试的结果基本一致,我们将测试方向颠倒一下再度进行测试,结果发现B光缆的衰减量为27dB,A光缆仍然为3.7dB。继续对B光缆进行分段测试,44楼以下的一段光缆测试结果为2.3dB,基本可用。跳线衰减量测试1.28dB,基本可用。44楼和66楼之间的光缆测试衰减为20dB,严重超差。说明这条链路有比较严重的问题。
        拧下44楼的光卡接头,用放大镜仔细观察,光缆芯线直径圆润,与其它接头并无二至。随后检查66楼光缆接头,发现其芯线直径比其它接头的芯线直径要小许多。可以判定,此接头很可能为单模光缆接头。将这对光纤的接收和发射位置对调使用,插入光卡后网络恢复正常工作。
       
[诊断评点]光缆链路在标准化的认证测试过程中按要求进行双向测试,本大厦的光缆布线系统全都只做了单向测试。当遇有光纤直径不匹配、光纤气泡或接头质量差等情况时,光纤在两个方向上的衰减量会有差异。一般来讲,差异不会超过10%。此次故障的光纤双向测试衰减量差值达20dB,故怀疑光纤直径存在严重的不匹配,且出现在接头处的可能性最大,所以我们对44楼和66楼之间的光卡接头进行检查。结果发现了误用的单模光纤接头。单模光纤的芯线直径为9微米左右,对1310微米和1550微米的单模激光衰减量较小。多模光纤芯线直径为62.5微米左右,在计算机网络中多用于850微米的多模光信号传输。单模光纤链路和多模光纤链路由于传输的光模式、优势波长和衰减机理完全不同,不可以混用。本故障的接头当从正向测试B链路的衰减量时,由于单模光纤一端与多模光纤熔接,不少多模光能量仍可以进入单模光纤,并从接头处的小直径处(单模9微米)全部射入大直径(多模62.5微米)的多模光卡的光接头内,表现为衰减量比正常链路大(实测为7.8dB),但信号基本可用。当从逆向进行测试时,大直径的多模光能量在接头处被小接头的单模光纤大部分阻断,表现为逆向衰减量很大,实测值为27dB。由于光卡的接收灵敏度较高,衰减余量大,故“水漫金山”事件之前,光卡接收到的信号能量处在光卡灵敏度的边缘,逆向信号勉强可以使用,此时的网络表现不稳定,有时速度很慢,有时偶尔中断(受气温和空气压力的波动影响)。“水漫金山”事件后,由于在重新处理链路时增加了一段30米长的跳线和一个光接头,致使光卡的接收能量超出边缘值,网络连接因此中断。
多模光卡都是成对单向使用光纤,即光卡发射用一根光纤,接收用另一根光纤,所以当对调接收和发射的光纤时,光卡接收和发射的信号都利用了单向衰减量小的方向,接收到的光信号能量较强,网络可以恢复正常运行。
本故障如果利用光时域反射计(OTDR)可以直接从仪器的屏幕上观察到回波曲线的不连续状态,有经验的测试者一般可以立即判定是链路混用的问题。
       
[诊断建议]首先,尽快更换误用的单模接头。第二,根据标准化施工施工和验收要求对所有光纤链路都要进行双向测试。第三,我们发现该大厦的设计图纸上无光纤链路的衰减量计算值标注,只标注了光纤的设计长度。由于实测的光纤衰减量无论是表现正常的链路或是不正常的链路其结果都比设计值偏高,估计存在使用劣质光纤和劣质接头的情况,且不排除用多段零碎光纤拼接链路的可能性。所以建议业主要求集成商检查所有实际的接头和熔接头数量。


0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:111073次
    • 积分:1493
    • 等级:
    • 排名:千里之外
    • 原创:31篇
    • 转载:57篇
    • 译文:0篇
    • 评论:5条
    最新评论