一、客户现状及痛点
中国银行业信息科技“十三五”发展规划监管指导意见提出,持续推进生产监控运维精细化、自动化和智能化建设,强化系统风险和故障的早预警、早定位和早处置,必须加强运维大数据分析,利用运维大数据加强业务风险防控,探索利用运维大数据推动业务流程优化并支持业务创新。国内许多银行开始纷纷探索运维新方向,推动自身运维管理、流程管理和业务管理的智能化发展,该行走向了前列。
该行是全球最大的开发性金融机构,中国最大的中长期信贷银行和债券银行,主要通过中长期信贷与投资等金融业务,为国民经济重大中长期发展战略服务。但是随着银行业务的快速发展,信息系统和系统规模日渐庞大和复杂,用户面临着越来越严峻的挑战:
- 数据中心机房、网络、服务器和数据库等监控系统独立分散,无法集中管理;
- 告警无法标准化,错报和误报经常出现,且告警内容难以压缩和过滤;
- 监控数据彼此独立,无法实现共享和关联分析;
- 缺乏统一的展示界面和调度协调机制。
二、擎创解决方案
针对于此,用户迫切需要建设一套整合各监控系统的解决方案:通过夏洛克AIOps大数据智能运维平台,搭建完善的信息系统监控体系,实现运维监控自动化。此外,统一监控项目也解决了各个系统独立监控且无法关联分析的痛点,解决了误报和漏报的告警问题,实现了告警事件的压缩去重,提高了运维效率。
- 监控数据导入快速化
根据现有监控工具建设情况,将相关监控数据如服务器、网络和数据库等导入;
- 数据处理展示一体化
基于大数据架构进行数据处理,实现统一告警管理如事件过滤、压缩和关联等功能,统一性能管理如性能数据存储、管理和告警等功能,并以拓扑视图及报表进行综合展示;
- 信息平台集成化
集成管理配置库、IT服务管理平台和告警平台等信息流程平台;
- 功能管理个性化
具备策略管理、用户权限管理等管理功能;
- 架构需求多样化
架构上满足高可用、可扩展、容量及性能等要求。
三、解决方案价值
擎创通过本次大数据运维平台的建设,成功地帮助用户解决了以下问题:
- 运维数据有效整合
通过对十几项运维数据的统一收集和汇总,实现了运维故障的精准告警、业务交易异常精准分析,有力支撑了用户新业务系统的上线和运行。
- 数据统一分析处理
对大数据运维平台的告警事件、性能数据、用户的CMDB和IT服务平台系统进行关联分析,帮助用户快速定位故障根因,提高运维效率。
- 运维系统可视化展示
通过建设ECC大屏展示,帮助用户实现运维系统可视化展示,通过可视化排障助手直观查看系统状态,并对多项指标进行关联分析。
四、方案特色——灾备方案
- 在两处不同的数据中心部署相同架构的监控系统;
- 每个数据中心的统一监控系统对接各自的一级监控系统;
- 数据通过Kafka进行实时同步,保证数据一致性;
- 随着该行系统搬迁,数据中心的统一监控系统将转为主系统。
五、用户评价及期望
夏洛克AIOps在用户数据中心上线之后,为用户提供了智能化的统一监控系统,有效地促进了业务系统流畅、稳定地运行和新业务的拓展。银行运维负责人表示:“我行运维的最大问题,在于系统多且都是独立监控的,根本无法对运维数据进行关联分析,运维数据的价值也得不到很好地利用。而擎创的平台系统在我行上线之后,“数据孤岛”的情况再不复存在,而且在精准告警、故障排除和可视化展示方面,效率也得到大幅提升。
监控系统智能化是第一个阶段,未来我们也将尝试运用新技术,让运维服务越来越简单化和智能化,让业务运行越来越稳定和快速。”