根本原因分析 关键事件关联 IT运维有序发展——中国联通通讯集团

·案例背景
 
  中国联通经过几年的信息化建设,已经建成了统一信息平台Portal、BPM、OA等多个应用系统。企业各个业务所需要的应用系统,极大地提升了企业的信息化水平,提高了工作效率,基本实现了无纸化办公。
  随着应用系统越来越多、越来越深入,员工的日常工作已离不开这些应用系统,应用系统的运行状况直接影响着员工办公、企业生产,因此确保应用系统的安全、可靠、稳定地运行成为系统维护部门越来越重要的工作。
  目前中国联通的门户系统供全国的联通员工办公使用。在门户系统维护工作中存在着如下问题:
  ·系统需要人工监控,维护量巨大,并且无法一一监控到位,同时不能做到持续地实时监控。
  ·忙于应对已发生的故障,被动响应式的工作方式,解决故障的效率低。
  ·门户Portal无故宕机,很难及时发现和预见问题的发生。
  ·问题出现后,很难快速、准确地找到根本原因。
  ·找到问题后,缺乏流程化的故障处理机制。
  ·支持过程总是被打断和干扰。
  ·缺乏过程和变化的跟踪记录,如系统运行状况、主机配置变化、应用模块变更等。
  ·不能及时地统计、分析系统状况,供领导决策。
  结果造成维护部门在出现问题时疲于应付、导致维护工作的满意度较低,这些问题一直困扰着IT维护部门。维护部门迫切的希望改变目前的这种状况。
 
·方案介绍
 
  中国联通应用监控系统是基于Mocha BSM产品,该产品为联通总部提供了统一的、集中的IT服务管理平台。系统包括系统监控、报表展现、决策分析等主要功能。
系统监控功能
  通过对主机、平台、应用等方面的监控,实现了对门户系统在性能上、可用性上全方面的跟踪,能够及时发现故障、确定故障影响严重性并能定位故障根本原因。
主机信息监控:提供对各系统所在的服务器进行实时监控。
平台信息监控:监控WAS、WPS平台指标信息直接决定提供服务的性能,从根源上管理平台可用性。
应用信息监控:经过多年经验汇聚,提取WAS应用层面重要指标,预防为主。
数据库监控:监控Oracle数据库的多项指标信息,提供数据库服务的性能和可用性指标,从根源上管理数据库平台的可用性。
- 主机方面
  监控运行于集团公司、全国门户、Web应用的20台UNIX和Windows主机,包括CPU、内存、硬盘、OS文件系统等运行状况的重要指标。
  监控时间频度为1分钟采集1次(监控时间频度可以自行配置)。
read-case-unicom-01.gif
- 平台方面
  包括运行于集团公司门户平台监控的指标主要包括:
→ WPS平台
·WPS服务可用性·WPS数据库可用性·LDAP可用性
·WebSphere Portal·Server CPU利用率·系统CPU利用率
·JVM内存利用率·系统内存利用率·连接平均等待时间
·Cell名称·Node名称·主机名
·IP地址·WpsPid·WpsHostPort
·WpsContextRoot·WpsPersonalizedHome 
→ WAS平台
·WebSphere AS可用性·系统CPU利用率·WebSphere AS
·CPU利用率·系统内存利用率·JVM内存利用率
·活动的线程 ·最大百分比·活动线程利用率
·Pid ·主机名·IP地址
·操作系统 ·Cell名称·节点名称
·Server名称 ·Cluster名称·空闲内存
·使用的内存 ·分配总内存 
- 应用方面
  全国门户应用:包括各省公司及全地市的应用系统,分布在两台服务器上。
  集团门户应用:包括集团公司的所有用户的使用的办公系统,分布在两台服务器上。
  应用监控的内容主要包括:
·总部门户的全国应用 ·全国门户的全国应用·内容发布
·省份园地 ·网上调查与应用·业务论坛BBS
·工作流 ·工作流待办·工作流待阅
·全国门户Portal ·全国门户WebSeal·总部门户Portal
·总部门户WebSeal  
监控时间频度:对于部分监控频度要求较高的指标为1分钟采集1次、对于部分监控频度要求较低的指标1小时采集1次(监控时间频度可以自行配置)。 
 
read-case-unicom-02.gif
系统监控的其它功能点
→ 对于性能指标超标、宕机故障,通过手机短信、邮件直接发送给系统的管理员、维护人员及其他相关人员,在报警信息中明确哪台主机、哪个wps应用服务器、哪个应用、故障发生的时间、初步定位的故障原因等重要信息,方便维护人员了解故障并及时解决故障。 
 
read-case-unicom-03.gif
→ Mocha BSM对门户系统的主机、平台、应用等各方面的过程和变化进行全面的跟踪记录,如系统运行状况、主机配置变化、WPS平台配置变化、应用模块变更等都会自动记录到系统中,非常方便查阅这些动态信息,做到了可追溯,同时这也符合SOX法案的要求。
 
- 数据库方面
·实例可用性 ·监听器可用性·系统CPU利用率
·Oracle DB CPU利用率 ·系统内存利用率·Oracle DB 内存利用率
·PGA命中率 ·库缓存命中率·高速缓冲缓存命中率
·物理读速率 ·物理写速率·数据块获取数/秒
·一致性获取数/秒 ·内存排序比率·当前连接会话数
·当前进程数 ·登陆会话数/秒·当前打开的游标数
·当前锁数量  
数据库管理的亮点数据库管理的亮点
  自动发现被监控的数据库,自动发现数据库上的数据库表和表空间,并对此进行监控。 对以下关键组件进行针对性的监控:数据库、表空间、数据文件、进程、操作系统的文件系统。 提供数据库配置的监控,提供70多个可用性和性能指标,Top 10 SQL语句排名 ,数据库可视化管理。
 
报表展现、决策分析功能
  Mocha BSM系统对监控主机、平台、应用等方面收集到的数据提供了各种直观形象的图表和报表展现,提供了统计报告,提供了资源和指标走势,用以辅助分析和决策。
  通过Mocha BSM提供的查询、统计功能、分析功能,中国联通客户可以统计1个月以来发生的故障次数以及解决故障的时间等等,作为提高维护质量的基础数据。
  Mocha BSM能够根据历史数据,并对未来趋势进行预测,使决策更有依据。例如,能够根据磁盘每天的增长率来预测磁盘扩容的时间点,提前向管理员提示,为主机扩容提供依据,同时避免了人为的检查疏漏而面临磁盘空间达到临近100%产生的风险。 
 
read-case-unicom-04.gif
·功能亮点
 
  中国联合通信有限公司采用自行研发的摩卡业务服务管理(Mocha BSM)产品作为门户应用监控的解决方案。该方案解决了客户在实际工作中所面对的IT服务问题,该系统主要亮点如下:
  ·实时监控主机、WAS平台、WPS平台、WEB应用等基础设施、应用等IT资源的运行状态、性能和可用性。
  ·当监测到系统故障时,快速定位故障的主要原因,估算系统事件对业务的影响及其严重程度,并触发相应的故障处理流程。
  ·简单操作的系统管理配置,方便地配置所监控服务器的信息,应用数据自动获取。
  ·通过门户系统可以进行统一整合,实现单点登录SSO、统一授权和访问控制、集成展现和个性化等功能,使系统各模块之间实现无缝的协同工作,给IT服务经理、系统管理员、应用管理员等不同的用户群体和角色提供了可视化的工作平台。
  ·提供了丰富的报表,提供了统计报告,提供了资源或指标走势,用以辅助分析和决策。
  ·RTM监控定期的监控门户应用的可用性,可以在Web应用之上更细致的监控用户的登陆、点击的交换操作。使用户的体验过程的每个环节都得到有效的监控。

 
·客户收益
 
  目前Mocha BSM系统已经在中国联通总部正式上线使用并稳定运行。通过Mocha BSM对主机和应用系统的监控、管理,彻底改变了IT部门维护主机、应用系统的工作方式、解决了IT部门之前面临的种种问题。通过Mocha BSM的实施和使用:
  ·从被动响应式的工作方式转变为主动服务。
  ·主机系统维护的满意度不断提高。
  ·通过自动的资源监控系统及时发现问题,避免重大故障发生。
  ·问题出现后能够协助管理员快速找到问题原因,并及时地触发故障处理流程。
  ·自动化的流程推送和提醒功能,在多任务工作环境下得心应手。
  ·分析数据,展现报表,使公司领导更及时了解到相关信息。
  ·使人员分工、IT预算等决策更有依据。
 
更多相关信息,请点击 [url]http://www.mochabsm.com[/url]
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值