做运维的,一个月总有那么一两天晚上睡不好,早上醒不来,不为别的,系统不稳定等等原因。导致了我们要进行各种折腾。就和整天抱着×××睡觉一样,这里做了一些设想,当然部分功能已经实现。发出了,让大牛们看看给点指导意见,

wKiom1h3GerQ-01HAAFJ4dU1dVM678.jpg-wh_50

最核心的系统有两个ELK和老牌的nagios。naigos作为监控程序存在,主要做它擅长的应用程序状态监控,使用mk-livestatus抽出数据。然后有自己开发的mylive进行相应处理,对有问题的服务进行处理,同时也处理基于日志发现的问题,例如某些特殊情况下的***,waf模块拦截下的***等,可以通过集中日志去分析处理。mylive是python开发的,现在开发了半截了吧,后期打算开放出来,大家一起搞一下