《质量全面管控》读书笔记——监控平台与故障排查

一、监控系统
监控系统是整个运维环境乃至整个产品或项目中最重要的一环。好的监控平台具备的条件:
1)在保障系统业务正常运行时,平台能够主动监控服务器、网络设备、数据库和应用程序的运行状态,能够及时发现隐患;
2)在故障出现时,能够智能化警告(如使用邮件、微信等),能够快速获取必要的信息,迅速定位问题症结,并为解决故障减少处理时间;
3)平台监控的信息集中显示,一目了然,可通过图表展示某一时间的监控指标趋势,并记录运维日志。

1、ELK
ELK是一个开源的实时日志分析平台,由ElasticSearch、Logstash、Kiabana三个开源工具组成,集中化管理日志,监控系统日志、应用程序日志和安全日志等。ELK适合做搜索日志,但不适合做大数据统计,在系统分析上效果不是很好。可参看ELK原理与介绍ELK等。

2、Splunk
Splunk是一款商业版日志分析软件,具有添加日志。生成图形化报表和非常强大的搜索功能。它能处理常规的日志格式,设立日志的索引,支持复杂的查询语句,支持交叉查询。

二、Zabbix简介
Zabbix是一个开源的基于Web的性能监控解决方案,提供分布式系统监视及网络监视,可以监控服务器、Web应用程序、数据库、网络设备等的性能和提供报警机制。
Zabbix由如下几个组件构成:
1)Zabbix Server(服务器):负责收集Zabbix Agent发送的配置和数据信息,整合并统计数据;
2)Database Storage(数据存储):用于存储所有配置信息和Zabbix收集的数据;
3)Web UI(界面):基于Web的界面,通常与Zabbix Server组件运行在同一台主机上;
4)Zabbix Proxy(代理器):可选组件,主要适用于分布监控环境中,代理Zabbix Server收集Zabbix Agent的监控数据并统一发往Zabbix Server端,可以分担Zabbix Server的压力。Zabbix Proxy本身没有前端,也不存放数据,只是将Zabbix Agent发来的数据暂时存放,再提交给Zabbix Server。
5)Zabbix Agent(代理程序):部署在被监控机器上,负责主动收集客户端数据(如CPU负载、内存、硬盘使用情况),并发往Server端或Proxy端。

Zabbix配置及使用见Zabbix 3.0 从入门到精通(zabbix使用详解)

三、美化界面Grafana
Grafana是一款显示数据的开源的度量仪表盘和图形编辑器,适合处理时序数据,能够支持Graphite、Elasticsearch、Prometheus、InfluxDB、OpenTSDB、KairosDB。其使用见Grafana3.1.0的使用Grafana系列教程–Grafana的配置及运行等。

四、服务器故障排查
1、清楚故障的前因后果
2、尽可能地收集信息
3、列出当前运行的进程
4、监听网络服务
5、查看硬件状态
6、列出挂载点和文件系统
7、过滤内核和中断信息
8、定时任务
9、分析系统日志

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值