在最开始的时候我们学习java,然后学习框架等,最后可以用java写出来一个能跑起来的程序了,然后通过网址能够访问到了,别提有多开心了,但是时间长了会发现这只是开始,随着系统越来越大,越来越复杂,分布式、集群、高并发等等 系统每时每刻都会有点问题爆出来,这个时候小的内部系统最笨的方法就是去问操作的人,刚才干嘛了,然后根据他的行为去找接口找报错日志找报文参数,然后分析是哪个地方的问题在修复,这个过程是非常麻烦且效率不高,如果是线上系统你找谁去呢,在者报错了都是别人找到你才去修复,这样的系统都没人用了吧,在软件行业这样的问题不是今天才出现的,早就有各种各样的监控软件出来帮我们时刻监视着了。
我们用apm性能监控工具,监控 cpu、内存、jvm、gc、fgc 的使用情况,能够看到每时每刻的系统情况。(网络上搜索 apm性能监控会得到很多软件)
同时可以结合可视化软件配置灭火图实时观看,所谓灭火图就是图表上展示的图表操作阀值的时候变红,红就是火就要去灭它。
我们还需要配置监控报警,当指标到达阀值的时候提前告知我们自己,我们就可以在系统真正宕机之前去解决问题,尽量缩短了系统不可用时长。
数据库监控,慢查询数量、主从延迟、正在执行sql的连接数正常情况下该值在一定范围、MySql连接数突然增长意味着有高并发、select数量整个集群的select数量、
update数量整个集群最大的update数量、insert数量、delete数量。
流量监控、qps监控
今天先到这里,未完待续。。。。