1 大型公司的运维痛点
互联网巨头X在全球员工数万人,业务覆盖上百个国家与地区。IT作为技术支撑部门,服务的对象主要是企业内部员工,要保障办公网络流畅、稳定,支撑数万员工高效办公,网络部门面临不少监控难题:
1、之前的监控体系主要基于基础架构层的硬件、资源监控,对于负载设备所承载的应用服务质量缺少监控能力;
2、负载日志监控体系分散,各个监控工具各自独立,有问题时才能进行数据回溯,缺乏故障预警能力;
3、目前的监控体系仍然存在盲区,无法做到业务级别的数据洞察,因此对用户体验常常缺乏感知;
4、由于负载前后端地址转换复杂,给故障排查带来了较大挑战,运维效率急需提升;
5、伴随公司业务高速发展,网络端需要应对业务复杂度不断提升以及团队规模持续变大的挑战,为减少因故障带来的组织效率影响,因此需要更好的管控应用风险。
X公司如何保障业务端流转高效、稳定的同时消除应用交付的盲区,提升运维服务能力、效率与满意度?
2 网络访问需要稳定快速,合规有序,智维数据提供解决方案
基于客户的以上需求,智维数据的方案理念是:搭建一套以用户为核心的监控体系。借助负载设备承载应用、业务及用户访问的特性,从负载数据中实时抓取用户的每一次访问,通过负载配置和日志数据,分析设备性能与用户体验情况,通过用户的真实访问数据,来监控数据中心关键业务的运行状态,当真实用户访问出现异常时,运维人员可以快速感知,对常规问题实现自动化处置,降低故障的影响。
3 应用场景
低成本,轻量级,快速搭建应用服务质量监控系统
由于X公司之前的监控体系主要基于网络设备的性能数据,想要了解应用服务质量的情况,如果以流量镜像方式进行监控需部署大量采集点,成本较高;原有的几个监控平台可以对负载设备的日志进行采集,但对负载日志缺乏解读能力,查找关键问题需要耗费网络部门大量时间;网络部也测试过其他第三方平台,由于产品逻辑过于复杂,厂商光对接负载配置就花了好几天,且日志对接和读取都出现了问题。这使得运维人员很为难,有没有部署更灵活,对接成本更低的解决方式?
此时,智维数据