如何做好运维监控？

最新推荐文章于 2024-11-11 20:35:54 发布

LinkSLA

最新推荐文章于 2024-11-11 20:35:54 发布

阅读量1k

点赞数 16

文章标签：运维

本文链接：https://blog.csdn.net/LinkSLA/article/details/137112216

版权

本文探讨了IT运维中的监控重要性，详细介绍了监控对象分类，如服务器、应用、数据库和网络，以及如何通过定义告警策略、内容标准、集中与分布式监控结合、故障主次区分和业务自我修复来提高运维监控水平。南京林科斯拉的智能运维管家提供了全面的解决方案。

摘要由CSDN通过智能技术生成

我们常说，IT运维是比较有风险意识的。往往能预测哪里可能出现问题，出现问题后该如何处理。在运维环境中，为了保障业务系统稳定正常运行，需要对监控对象进行持续性的监控，并且通过数据统计分析，及时地反应出性能瓶颈、安全隐患等。

因此监控就成为整个运维环境，乃至整个产品运维环节中最重要的一环，事前及时预警发现故障，事中诊断快速定位，事后分析复盘避免二次故障。

监控对象分类

我们通常将监控对象分为四大类

1.服务器监控，主要监控服务器如：CPU 负载、内存使用率、磁盘使用率、登陆用户数、进程状态、网卡状态等。

2.应用程序监控，主要监控该应用程序的服务状态，吞吐量和响应时间，因为不同应用需要监控的对象不同，这里不一一列举。

3.数据库监控，特别重要，一般监控数据库状态，数据库表或者表空间的使用情况，是否有死锁，错误日志，性能信息等等。

4.网络监控，主要监控当前的网络状况，网络流量等。

如何提高运维监控水平，我们分享一些小技巧。

1、定义告警优先级策略

一般监控结果是成功或者失败，如Ping不通、访问网页出错、连接不到Socket，这些最优先告警。除此之外，还能监控到返回的延时、内容等，如Ping返回的延时、访问网页的时间、访问网页取到的内容等。

利用返回的结果可以自定义告警条件，如Ping监控的返回延时一般是10-30ms之间，当延时大于100ms时候，表示网络或者服务器可能出现问题，引起网络响应慢，需要立即检查是否流量过大或者服务器CPU太高等问题。

2、定义告警信息内容标准

当服务器或应用发生故障时告警信息内容非常多，如告警运行业务名称、服务器IP、监控的线路、监控的服务错误级别、出错信息、发生时间等。

预先定义告警内容及标准使收到的告警内容具有规范性及可读性。这点对于用短信接受告警内容特别有意义，短信内容最多是70个字符，要在70个字符完全知道故障内容比较困难，更需要预先定义内容规范。如：“视频直播服务器10.0.211.65 在2012-10-18 13:00电信线路监控第到1次失败”，清晰明了的知道故障信息。