监控系统Metis方案设计
一、概述
对于一个业务系统而言,不同的角色关注的点会有一定差异。领导或负责人系统获取系统的SLA,系统间的相互作用,展示资源消耗情况;运维人员需要获取基础设施和服务的实时状态信息,各种软硬件错误,性能变化及性能瓶颈;开发人员需要知道系统主要性能瓶颈,经常出现的错误,便于着力解决重要问题。要满足这些需求,一套可扩展,易使用的监控系统便非常必要了。它可以对系统监控指标、应用监控指标进行获取、存储、计算,同时也要能根据预先设置的规则进行报警。基于此,并结合**大数据平台的监控需求,拟设计一套监控系统Metis。
主要功能:
n 可以获取服务器硬件监控指标(disk, net, mem, cpu etc.)
n 可以获取业务自定义监控指标(click, upload, dispatch etc.)
n 可以获取应用JVM监控指标(ygc, fullgc, perm etc.)
n 可以获取主机是否存活
n 可以获取端口是否存活
n 可以获取URL是否存活
n 可人为干预停止、启动相关应用监控指标获取
n 基于grafana完成灵活的指标图形展现
n 可配置的监控报警功能
n 整合Nagios