随着互联网+时代的到来,移动互联网和云计算技术得到了广泛应用,大多数初创公司在选择互联网创业的同时,不约而同的将IT系统部署到云平台上,也有不少的企业在保留或减少原有的物理主机的基础上,增加了云主机,云数据库和云存储的使用量。
这些云服务基本都提供了针对自家服务的基础监控功能,比如UCloud提供了UMon,能针对主机、站点和Ping进行基本的监控;阿里的云监控服务提供了站点、ECS主机、云数据库RDS等监控,但是其它的服务监控基本属于空白;青云提供的监控服务和阿里云比较类似,提供的功能比较简单。
然而由于大量应用需要横跨不同网络终端,并广泛接入第三方服务(如支付、登录、导航等),所以IT系统架构越来越复杂,业务流程越来越繁琐。同时,敏捷开发和DeOps的流行,让应用系统的开发周期越来越短,系统变更越来越频繁,交接很仓促,应用在没有充分测试的情况下上线,相关文档更新不及时等,这些都给IT运维管理带来巨大的压力和挑战。
运维“大坑”屡见不鲜:应用系统改造牵一发而动全身,但很少有人完全了解系统整体架构、数据流等;端到端业务流程穿越多个应用系统,而单个应用系统可用并不能代表整个业务的可用;运维人员对架构和业务流程不了解,且缺乏相应工具的支持,发生故障时故障定位能力不足,延误了业务恢复时间。
云智慧通过与运维人员的长期沟通,把企业运维中的常见问题归纳如下:
1、面向业务的运维,不但关心单点IT资源(单个服务器,数据库)的运行状态,更关心整个业务系统的健康状态和构成,因此,需要清晰知道某些节点的问题,会影响到哪些业务的正常运转,并能够事先预警;
2、使用Zabbix入门简单,但是后续复杂的告警设置、报告及分析,需要对Zabbix有深度研究,并需要消耗大量的二次开发时间,而且Zabbix虽然有商业服务,但对中国本地用户的支持非常有限。
3、如果企业使用了大量的API和模块化应用,那么关注每个接口的性能情况、每个业务模块有多少性能超标,这个价值更大一些。云智慧透视宝的某个用户之所以从前不出运维报告,一个是业务系统的故障率不好统计,另一个原因是老大无法把模块和业务直接关联起来。
4、对于运维主管及企业管理层来说,特别需要上墙的监控大屏,能够实时展现业务运营数据和各种IT性能数据的关联关系。很多运维人员通过Zabbix的皮肤工具Grafana实现Dashboard美化,从反馈来看,效果虽炫,但是配置麻烦,操作不便。
5、运维需要每周和每月给领导提交总结报告,但是使用Zabbix等软件,需要从数据库中导出数据,或者进行专门的定制开发才能满足需求;
6、运维对开源需求强烈。因为运维人员多为程序员出身,掌握一定的开发能力,所以希望系统开源,一方面对代码有所掌控,另一方面能够根据企业的特殊需求进行二次开发。
立足上述需求,云智慧对业内主流的开源运维监控系统和商业运维监控系统进行综合评测(详见《运维工具大宝典之开源工具篇》、《运维工具大宝典之商用软件篇》),通过对比各种产品的定位、目标用户和功能特点,希望帮助广大创业者和开发、运维同学找到最适合自己的运维工具。
云智慧官网:www.cloudwise.com