如何做好运维监控?

本文探讨了IT运维中的监控重要性,详细介绍了监控对象分类,如服务器、应用、数据库和网络,以及如何通过定义告警策略、内容标准、集中与分布式监控结合、故障主次区分和业务自我修复来提高运维监控水平。南京林科斯拉的智能运维管家提供了全面的解决方案。
摘要由CSDN通过智能技术生成

我们常说,IT运维是比较有风险意识的。往往能预测哪里可能出现问题,出现问题后该如何处理。在运维环境中,为了保障业务系统稳定正常运行,需要对监控对象进行持续性的监控,并且通过数据统计分析,及时地反应出性能瓶颈、安全隐患等。

因此监控就成为整个运维环境,乃至整个产品运维环节中最重要的一环,事前及时预警发现故障,事中诊断快速定位,事后分析复盘避免二次故障。

监控对象分类

我们通常将监控对象分为四大类

1.服务器监控,主要监控服务器如:CPU 负载、内存使用率、磁盘使用率、登陆用户数、进程状态、网卡状态等。

2.应用程序监控,主要监控该应用程序的服务状态,吞吐量和响应时间,因为不同应用需要监控的对象不同,这里不一 一列举。

3.数据库监控,特别重要,一般监控数据库状态,数据库表或者表空间的使用情况,是否有死锁,错误日志,性能信息等等。

4.网络监控,主要监控当前的网络状况,网络流量等。

如何提高运维监控水平,我们分享一些小技巧。

1、定义告警优先级策略

一般监控结果是成功或者失败,如Ping不通、访问网页出错、连接不到Socket,这些最优先告警。除此之外,还能监控到返回的延时、内容等,如Ping返回的延时、访问网页的时间、访问网页取到的内容等。

利用返回的结果可以自定义告警条件,如Ping监控的返回延时一般是10-30ms之间,当延时大于100ms时候,表示网络或者服务器可能出现问题,引起网络响应慢,需要立即检查是否流量过大或者服务器CPU太高等问题。

2、定义告警信息内容标准

当服务器或应用发生故障时告警信息内容非常多,如告警运行业务名称、服务器IP、监控的线路、监控的服务错误级别、出错信息、发生时间等。

预先定义告警内容及标准使收到的告警内容具有规范性及可读性。这点对于用短信接受告警内容特别有意义,短信内容最多是70个字符,要在70个字符完全知道故障内容比较困难,更需要预先定义内容规范。如:“视频直播服务器10.0.211.65 在2012-10-18 13:00电信线路监控第到1次失败”,清晰明了的知道故障信息。

3、 集中监控和分布式监控相结合

主动集中监控虽然不需要安装代码和程序,非常安全和方便,但缺少很多细致的监控内容,如无法获取硬盘大小、CPU的使用率、网络的流量等,这些监控内容非常有用,如CPU太高表示有网站或者程序出问题,流量太高表示可能被攻击等。

被动分布式监控常用的是SNMP(简单网络管理协议),通过SNMP能监控到大部分你感兴趣的内容。大部分操作系统支持SNMP,开通管理非常方便,也非常安全。SNMP缺点是比较占用带宽,会消耗一定的CPU和内存,在CPU太高和网络流量大情况下,无法有效进行监控。

4、定义故障告警主次

对于监控同一台服务器的服务,需要定义一个主要监控对象,当主要监控对象出现故障,只发送主要监控对象的告警,其它次要的监控对象暂停监控和告警。

例如用Ping来做主要监控对象,如果Ping不通出现Timeout,表示服务器已经当机或者断网,这时只发送服务器Ping告警持续监控Ping,因为再继续监控和告警其它服务已经没有必要。这样能大大减少告警消息数量,又让监控更加合理、更加有效率。

5、实现对常见性故障业务自我修复功能

实现对常见性故障业务自我修复功能脚本进行统一部署并对修复后故障进行检查告警检查频次不多于3次。

6、 监控范围及目标

实现对负载均衡设备、网络设备、服务器、存储设备、安全设备、数据库、中间件及应用软件等IT资源的全面监控管理;

同时自动收集、过滤、关联和分析各种管理功能产生的故障事件,实现对故障的提前预警和快速定位;

对网络和业务应用等IT资源的性能进行监控,定期提供性能报表和趋势报表,为性能优化及未来系统扩容提供科学依据。

南京林科斯拉-智能运维管家,智能极简 全栈监控。 (linksla.cn)icon-default.png?t=N7T8https://www.linksla.cn/#/

参考资源链接:[腾讯AI运维实践:智能监测与诊断系统](https://wenku.csdn.net/doc/2xarmz66b5?utm_source=wenku_answer2doc_content) 腾讯网络智能运维的核心是采用AIOps技术,利用人工智能进行网络监控的智能化和自动化。该技术通过大量运维数据的机器学习,自动提炼运维规则,以此提升监控的时效性和准确性。在实践中,腾讯运用了多种策略来实现这一目标。 首先,腾讯网络智能运维通过Meshping质量监控,利用分布在网络各处的服务器作为代理,执行近似全网的Meshping测试。这种方法能够快速地发现网络异常,例如端口抖动、队列拥塞等问题。通过自动化手段,腾讯将告警时间从15分钟优化到3分钟,准确率提升至90%以上。 其次,腾讯实施了“黑镜”网络智能诊断系统,该系统能够基于时间、地点、路径等因素进行模糊相关分析,并结合多种监控数据源(如syslog、snmp、flow等),快速推荐可疑故障点。此系统采取了“降级后再求甚解”的策略,通过敏捷试错来降低修复网络问题的成本,并快速验证修复方案。 除此之外,腾讯还面临了大规模网络监控的挑战,例如处理高并发、服务器行为的不可控性以及探测仿真真实度的问题。腾讯通过抽样选取代表、服务器健康评估和与业务脱敏指标联动等方法来解决这些问题,从而提高了整体网络监控的效率和精准度。 在腾讯的实践中,AIOps技术不仅提高了运维的自动化水平,而且显著增强了网络异常的感知能力和故障恢复速度。腾讯的网络智能运维技术值得大型互联网公司和需要处理复杂网络环境的企业参考和学习。对于想要深入了解腾讯AI运维技术和实践的读者,推荐阅读《腾讯AI运维实践:智能监测与诊断系统》一书,该书详细介绍了腾讯在这一领域的探索和成功经验。 参考资源链接:[腾讯AI运维实践:智能监测与诊断系统](https://wenku.csdn.net/doc/2xarmz66b5?utm_source=wenku_answer2doc_content)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值