监控作为网络运维管理工作中最基础也是最重要的一个环节,是发现故障的开始,也是事后复盘的支撑数据来源。如果等到用户反馈业务故障再去检查操作系统或业务系统,会极大的延长故障恢复时间。 |
传统的故障处理流程由用户上报故障,运维人员召集相关人员一一排查故障原因,定位并处理问题,而后进行故障复盘,总结经验并留存相关运维文档。该流程存在涉及人员多、排查系统多、经验文档留存复杂等问题。
性能监控作用为了解决上述提到的问题,性能监控应以集中监控、持续监控为核心,通过以下三点达到保障业务系统稳定运行的目的:
性能监控方式与内容性能监控的工作内容可以概括为数据采集、数据存储与分析、数据展示与告警三大流程,其中数据的采集应适应各种各样的监控对象,对SNMP、SSH、FTP、IPMI等协议都应支持。对于不同的监控对象当然也要具备不同的监控指标。
自动告警方式性能监控是为了事前发现异常,通过快速响应,避免故障的发生,所以性能监控的告警信息一定要让运维人员第一时间知晓,邮件、短信、SNMP trap、syslog等都是必不可少的告警方式。还应能自动生成工单,指定管理员处理某类告警信息,处理完成后反馈处理结果,形成闭环。
做好性能监控,可以从源头防止故障发生,泰合BSM(业务支撑安全管理系统)通过对各类操作系统、网络设备、安全设备、数据库等的监控,进行数据采集、分析、告警,支持工单下发与处置经验记录,帮助运维人员保障业务系统的稳定运行。
泰合业务支撑安全管理系统(简称BSM),以IT资产为基础,以业务信息系统为核心,从监控、管理、审计、运维四个维度,建立一套业务支撑安全管理,帮助用户从多角度对业务信息系统进行可用性、性能、服务水平的监控与告警;IT资产、IP资源、网络配置、设备策略的管理;事件审计、分析、预警;标准化、例行化、常态化的运维管控。信创版已适配十余款国产化平台,能够对国产化专用服务器/桌面机进行监控与管理。 |
-全文完-