我们一个主要目的是希望运维中的数据挖掘可以帮助使运维工作效率更高,成本更低。
首先总结一下,我们能有些什么数据:
根据应用性能管理的四要素:并发用户数,响应时间,资源使用率,吞吐量
根据应用类型:主机,应用服务器,网络,数据库,WEB服务器,MQ等;
管理相关: 报警规则,实际产生的报警,用户反馈,软件更新,硬件更新,其他故障,
然后,可以先从以下几个问题开始运维数据的挖掘探索:
分析管理平台发现的故障产生的时间与用户反映故障发生时间的关系。
各类故障之间、故障类型和监控测量指标之间的内在关联,以及各种资源故障与运行时间的关系。
通过掌握历史数据,预测未来故障可能发生的时间和故障数量、故障类型及严重程度等。
挖掘响应时间和可用性与哪些因素有关系。
其他挖掘的副产品。数据的再利用是大数据数据挖掘的一个特点。从大量的运维数据中,还可以挖掘出各产品的一些特点,例如:
各品牌硬件服务器与故障和性能是否存在相关性
各数据库与故障和性能是否存在相关性
各应用服务器与故障和性能是否存在相关性
各开发商与故障和性能是否存在相关性