错误是可以避免的——系统升级反思



       “9次提交委托,只有1次成功!股民毛先生反映,他安装的证券网上交易系统无法正常使用。毛先生称,他与几名同事均是某证券营业部的客户,平时交易股票均是通过网上和电话委托。近日,他们发现网上交易无法正常进行,不仅速度慢,而且交易往往无法成功。工作人员称,交易不畅主要有两个原因:一是该公司交易系统正在升级,二是交易量较大。营业部的工作人员表示,在交易系统升级过程中出现了一些错误问题,在修复后,交易不畅的情况将消失,希望客户谅解。”
         从上面的这个案例中我们可以看到,为了保证数据中心的高可用性,达到7*24小时不间断服务的目标,网络人员正在进行一次系统升级,目的是好的,但结果却差强人意。升级虽然可以带来很多好处,但也要反思升级的必要性。有很多升级后失败的案例摆在人们面前,如一些金融交易所升级系统后,用户无法登录系统;某运营商在花大价钱升级BOSS系统后,用户变更信息时间延长数倍等现象,屡见不鲜。这些例子可以看出具有升级后遗症的企业不仅让用户着急,更增加了企业的运转负担。
用数据证明升级的必要
       升级系统,有的时候是盲目的。不论是你是多有有经验的管理员,凭借主观判断是不可取的。这种主观判断在服务器系统升级时的副作用不是十分明显,但在网络带宽等重大升级项目时很快就可以显现出来。你可能升级了2倍以上的带宽,但网络访问速度依然缓慢。因此要用数据说话,证明网络是否存在升级的必要。
       首先,要判断网络连接的状态,即网络断开连接的情况是属于偶然性的还是经常性的。偶然性的网络断开连接很有可能是工程施工、恶劣天气、人为因素、端口接触不良等。而经常性的在实际使用网络过程中出现网络断开连接的情况,这说明我们的网络链路非常不稳定,一方面可能是线路自身的问题(如无线设备、xDSL),另一方面也可能是因为网络中的硬件设备负载太大而过载死机。如果是线路问题我们就需要分析是逻辑链路有问题还是物理链路有问题,前者我们可以通过一些简单的设置来解决,而后者只能通过联系电信部门工程师来重新连接物理线路.
       其次,要排除病毒和******的因素。很多网络管理人员都清楚,计算机感染病毒后是造成访问网络缓慢的主要原因之一。网络蠕虫病毒的疯狂肆虐,ARP病毒爆发都严重地影响着网络信息的正常传输,甚至能导致整个局域网发生瘫痪现象。而有的时候,外网用户无法访问访问网站站很有可能是由于服务器和网关设备的安全策略不到位,遭受到******或者DOS***等。
        最后要以网关为分界点分析网络缓慢的原因。道理很简单,因为网络的传输的双向的,传输速度取决于网络双方发送与接受速度的快慢以及网络之间的线路质量。许多网管对于外网的浏览、下载及其他网络服务的缓慢归结到核心设备的负载问题,这样判断网速的方法是不正确的。如果对方的网络接入链路是个慢速链路或者访问量非常多的话,必然造成其它用户访问缓慢。对于教育网以外的网络,由于访问需要经过多次路由,所以数据传输的时间会比较长。
        全面的测试数据是网络性能评估的关键,是你决定网络是否需要升级的关键。网络性能评估对网络关键应用能否健康运行有重要意义,通过对网络核心设备的处理能力分析,对网络带宽利用率、网络负载的分析,有助于提高网络整体性能和资源的合理分配,为规划、调整网络提供可靠依据。我们评定网络性能的好坏,不能以简单的流量作为评定依据,更不能是一种类似较好或较坏的笼统说法。
         因为网络带宽分为瓶颈带宽和可用带宽。瓶颈带宽是指当一条路径(通路)中没有其它背景流量时,网络能够提供的最大的吞吐量。可用带宽是指在网络路径(通路)存在背景流量的情况下,能够提供给某个业务的最大吞吐量。复杂的网络系统上面,不同的应用占用不同的带宽,重要的应用是否得到了最佳的带宽?它占的比例是多少?队列设置和网络优化是否生效?通过例如MRTG等网络流量分析会使其更加明确,并以图形HTML 文档方式显示给用户,以非常直观的形式显示流量负载,如:Web浏览(HTTP)、电子邮件(POP3、SMTP、WEB MAIL、文件下载(FTP)、即时聊天(MSN、QQ等)、流媒体(MMS、RTSP)等。
        最后,需要在用户的充分配合下,收集整理用户网络数据,包括网络设备信息、设备端口信息、链路信息、主机信息和客户网络拓扑信息等,并以此为依据建立网络数据库,在确定监测的范围内进行7X24小时不间断主动监测,为网络升级提供理论依据,通过与客户建立的定期和不定期数据库更新机制,不断更新数据库内容,来及时统计网络现状。
排除升级的隐患
          在对网络设备和系统主机进行升级前需要测试现有系统的可用性。
        有的管理员在出现错误的系统上升级,升级的风险大大增加。比如在错误的DNS系统上,你没有修正Srv记录记录,那么即时升级成功(几乎不可能)系统仍然运行在一个错误的环境中,用户的访问依然可能时断时通。
        另外,升级前需要检查系统地可用空间。比如网络设的Flash大小、服务器的磁盘空间等。实际上,在服务器经过多年使用后进行升级,补丁的累积就有1个G,可能系统管理员能够看到C盘空间还剩余2G的空间,而没有将虚拟内存进行调整,这时候进行升级就会造成系统空间不足,升级过程到一半时就会出现这个问题。
 最后,在升级前需要检查系统的更新情况,检查是否缺少必要的Service Pack,完成自动更新并验证日志中的错误是否已近排除。重新启动系统,释放内存空间占用,为升级做好准备。
可规避的风险
         我们都清楚,系统升级不可避免带来风险。风险分为两类,一种是不可预知的,另一种是可预知的。既然是不可预测的风险,有预防的想法,恐怕也是无从做起,只能是在风险到来的时候直接对问题做出反应。
        但风险的不可预知性在一定程度上是可以降低的,如在对业务系统或是IT系统进行升级之前,可以通知所有业务伙伴,在什么时间段需要暂停业务,在升级之后,确保系统稳定的情况下在启动业务,将风险降至最低。
人为操作失误
          引起系统升级失败的原因有很大一部分是由于人为操作不当造成的。人为因素主要是使用者的误操作,包括误删除、写入错误内容、安装和升级程序等,人为因素导致系统灾难的比例非常高,占 80% 左右。下面的例子非常典型:
        Mike根据公司的生产环境创建了一个测试环境,由两台Windows 2000 Advance Server组成DC,并在其一上安装了exchange 2000,打算测试将其迁移到Windows 2003 + Exchange 2003,他安装了一台Windows 2003 R2的服务器,并将其加入域,然后按照我发给他的《将 Windows 2000 域控制器升级到 Windows Server 2003方案》开始操作。
       在运行 Windows Server adprep /forestprep 命令之前安装 Exchange 2000 架构更改,成功地在架构主机上执行了adprep /forestprep。在完成复制后又在结构操作主机上成功了执行了adprep /domainprep,待完成复制后将那台2003的机器提升为DC时,系统报错:
         Active Directory 安装向导 : 由于以下原因,操作失败:
         1.Active Directory 安装向导不能继续,因为林没有为安装 Windows Server 2003 准备好。使用 Adprep 命令行工具来准备林和域。要了解有关使用 Adprep 的详细信息,参阅 Active Directory 帮助。
         2.“源林的 Active Directory 架构与这台计算机上的 Active Directory 的版本不兼容。”
这位仁兄甚至反复修正之后,都没有成功。最后重新做了一个新的测试,新建一个域,其中只有一台 Windows 2000 Advance Server 的 DC,补丁打全了,其上啥都没装,到了关键阶段竟然还是报同样的错误。我到了现场之后,气得仰面而口吐鲜血。
         这位兄台用Windows 2003 R2 第一张盘上的执行文件做了prep。其实应该用第二张盘上的,执行文件目录如下: Drive:\CMPNENTS\R2\ADPREP\adprep.exe /forestprep
看来网管员的“马虎”要不得,尤其在升级的过程中。我遇到的此类的升级种操作错误的还有用D版做adprep,以及在非架构主机上执行了adprep(应该在架构主机上做)。
知识链接:
Adprep:扩展活动目录架构。Adprep.exe 是一个命令行工具,用于针对安装 Windows Server 2003 域控制器来准备 Microsoft Windows 2000 林或 Windows 2000 域。检测冲突的 Exchange Server 架构对象,并修复。
供电系统容量不足
           其实很多人都熟悉PC的升级,在装机时购买的电源往往是那段时间性能最好的。而那时的各种配件的功耗并不算大,电源能够完全满足当时的需求。随着硬件的不断发展,双核心的奔腾D处理器、双显卡平台、甚至大容量的硬件,对电源的要求越来越高,当初一款250W的电源便能够对付的系统平台,如今350W都不一定能够完全满足需求。在升级之后延用了旧电源之后,便出现了这样那样的问题。这样的问题很容易发现,但网络设备或者中心机房设备在升级后人们却很容易忽视这个躲在角落的家伙。
           在系统升级前,列出所有需要保护的设备,别忘了显示器、终端、外挂硬盘,以及其他重要设备。然后加入需要增加的设备,每一设备均有电压及电流要求(这些数据可在设备背后的铭牌上找到)。将所有部件的VA值汇总;将汇总值除以0.7,就可以算出现在的容量是否能够确保升级所需了。UPS如果购买的时间较早,升级之后你也应该及时检查,并测试UPS的可用性。
           需要注意,UPS的平均无故障间隔时间MTBF仅仅是一个估算可靠性的参数,而影响此数值的因素很多,因而是一个无法检测的参数。而UPS输出能力的各项性能指标,都是可以量化的可靠性指标,在同等运行条件下,效率高、输出电流峰值系数和浪涌系数大、过载能力强的UPS,其可靠性必然高,这是毋容置疑的。事实上,同实际的电网能力比较,以上这些指标实际上是UPS对负载的限制,限制就意味着UPS本身能力的不足。具体地说,效率低意味着UPS本身损耗大,发热量大,这会加快主要功率半导体器件的老化,降低使用寿命。都可能在其它设备升级后,而UPS增加了故障发生几率。网络升级,也要好马配好鞍的。
丢失访问(使用)授权
            在升级系统前要注意原有系统上的授权证书、加密文件、用户身份认证证书的备份。提前将标注这些证书是十分有必要的,在升级失败时可以做到及时地恢复,以免影响用户的使用。下面的几个案例值得你借鉴。
加密文件的密钥
 系统升级失败后,有可能无法访问通过EFS等加密的文件,因此需要对密钥进行备份和导出工作。
         要知道,恢复访问由保存所要恢复的数据的计算机中有效的恢复策略进行控制。对于不在域中的独立计算机,您可以在本地计算机上设置恢复策略。如果您的计算机加入了某个域,您就可以通过组策略(Group Policy)机制来设置域的 EFS 恢复策略;这可以控制谁具有担当整个域中的计算机的恢复代理的权限。在系统升级失败后,用户之所以不能解密文件,是因为他们不具有使用自己私钥的权限。解决这个问题的最好方法是尽可能帮助用户找回他们的密钥,通过恢复用户配置文件或导入他们的密钥和证书。
防毒系统升级
        在网络版的防毒软件服务器时,一定要严谨的操作,并做好最坏的打算。如果您的服务器组中只包含一台服务器,则该服务器就是一级服务器并且管理该服务器组的所有客户端。升级失败,但你又无法恢复与客户端建立正确的信任关系,你不得不重新部署整个网络中的防毒软件。如果重新安装一级服务器上的服务器软件,将丢失与客户端的所有通信。这是因为客户端不信任你创建的新服务器组根证书。要缓解此潜在问题,在升级前要服务器组中安装一台二级服务器,以便可以解除对服务器组的锁定。另外,还应总是备份包含服务器软件的目录中的整个 \pki 子目录。如果重新安装服务器软件后可还原 \pki 子目录,您就可以重新建立客户端通信。
        如果是1000台客户端无法建立通信,你需要将Grc.dat 文件(让客户端找到服务器的文件)复制或者覆盖到每个客户端。我真不知道你有多大的承受能力可以完成这项工作。
防火墙ACTIVE KEY
      有些管理员很少关注硬件设备的授权文件,但在升级操作系统之后,往往需要再次向厂商提交申请。如果提前将产品的Active key值记录先来,就会减少申请的环节,增加升级的成功率。
       在本文的最后,我们需要提示您,不论多么充分的准备你都不能确保升级一定成功。因此要做好“回滚”(恢复到原系统)的准备,测试回滚的时间,测试备份系统介质的可用性这一点是确保“第二天”系统依然运行的完全必要条件。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值