报警及其处理是应用监控的主要实用方法之一。 使用得当可以节省人力和力,充分利用资源,保证应用的运行满足业务用户要求。反之则可能使人心惶惶,花费很多成本而没有效果,甚至会影响业务工作的正常运行。
报警和处理的要求
监控系统从应用和运行环境中按指标体系收集大量数据。这些数据反映了应用运行状态,当某个部分或者整体运行出现问题时,需要相关人员进行分析解决。报警使发现问题,提醒相关人员及时进行相关工作的基本方法。当系统没有问题时,所有人员可以进行其他应用管理和维护工作。
进行报警设置需要确定针对的指标,采样周期,报警值,报警方式和对象,有时还要考虑报警时的辅助操作,如:自动执行某些操作,记录更多数据等等。
报警一般需要及时通知相关人员进行分析和处理。在确认报警事件得到处理后,需要进行问题总结。
警告的内容
管理人员受到报警时,需要根据报警的内容判断问题严重程度, 紧急性,影响范围和处理方法。 报警内容包括,指标,计算公式,发生部件,严重程度。
为了帮助处理,报警内容还应该包括问题发生时的相关运行数据,以及如何寻找更多数据的线索和帮助。更好的报警系统可以自动分析问题和运行状况,根据以前处理经验和预设知识库,给出对警告含义的解释,相关问题的影响范围和处理的建议。
报警的方式
报警信息需要及时通知给相关人员和系统。由于报警需要使人员和系统的注意力从其他事情上转移,因此报警需要能够吸引主要力,处理在显示方式上需要醒目,明确外,还需要借助其他手段(如声音,震动)和设备。当报警没有得到及时处理时,需要能够升级报警方式,如强行终止现在进行的工作,转向报警处理,或者向更高层和其他人员报警。
报警的基本方式是在应用运行状态的显示屏幕上显示报警信息。消息,固定设备-计算机,专用设备,移动设备
报警处理
报警事件需要及时处理。很多问题如果不能得到及时解决会引起更多更大的问题。有时若干没有处理的小问题叠加,可能产生大问题。报警事件经常需要不同人员按照在职责范围进行处理,如一个机器损坏需要硬件人员更换设备,同时该机器运行的数据库管理员,需要尽量调整剩下的数据库性能,减小业务受到的影响。受到影响的业务人员,应该进行相关业务调整,避免给业务系统更大的压力而产生其他问题。
为了保证应用的运行,经常需要采用临时解决方法,暂时屏蔽问题。争取时间进行更深入的分析和彻底解决。如:应用的内存泄漏问题,可以发现规律,在特定时刻重新启动。
在处理报警时,监控系统应该给相关人员提供适当的相关信息,分析工具,知识库和处理建议。
报警问题及处理
太晚了是报警的常见问题,如系统已经崩溃,数据已经丢失。这种状况会严重影响业务处理,处理这些问题恢复应用正常运行也会需要很长时间。一般希望在系统出现问题苗条时报警,使管理员可以采取一些措施,使系统保持正常运行。需要设立问题苗头的指标,如性能下降,资源使用超过正常,小错误数量增多等等先行指标。
为了解决报警过迟而产生另一个最常见问题是过多小事件或者重复报警信息。这种问题不仅会影响相关人员日常工作和绩效评价。也容易产生狼来了的现象,而造成管理人员疲惫而对真正严重问题不能及时处理而产生严重后果。监控系统应该能够分辨报警的严重程度,通过关联相关警告减少报警数量,使管理员能够集中精力快速解决最关键问题。
误报是报警的另一个严重问题。会使用户浪费时间,影响业务处理,进而丧失对监控系统的信任。要求监控系统确保报警的准确性,尽量减少和避免误报。
很多系统对报警信息不能提供帮助分析和解决的恰当信息。一种问题是很少辅助信息,管理员在得到报警后需要很大精力收集信息才能判断和解决问题。不仅可能耽误处理产生严重后果,还有可能发生错误判断和操作,引起更多更大的问题。另一种使提供很多零散信息,管理员需要很多时间阅读,会耽误处理。监控系统应该提供与报警事件相关的信息,并且能够从大量原始数据中提取更有价值的分析和建议,提高报警的处理效率。