智能运维监控管理平台技术方案

最新推荐文章于 2024-08-03 09:18:09 发布

1023_sunny

最新推荐文章于 2024-08-03 09:18:09 发布

阅读量2.6w

点赞数 11

分类专栏：运维监控软件

本文链接：https://blog.csdn.net/qq_43058722/article/details/88623270

版权

1 项目概况 7
1.1 项目背景 7
2 现状概述 7
2.1 当前现状分析 7
2.2 当前面临的运维问题 7
3 需求分析 8
3.1 传统运维工具局限性 8
3.2 具体需求分析 8
4 建设方案 10
4.1 建设目标 10
4.1.1 实现自动监控主动预警管理 10
4.1.2 实现IT设备设施统一集中监控 10
4.1.3 实现网络拓扑、业务拓朴的全景化、可视化管理 10
4.1.4 IT资产统计管理，实现便捷的资产生命周期管理维护 11
4.1.5 灵活的运行数据和报表管理，为运行维护及增容扩建提供数据依据 11
4.2 系统建设规划 11
4.3 方案建设亮点 14
4.3.1 实时监控 14
4.3.2 定制化服务监控 14
4.3.3 智能预警 14
4.3.4 故障预处理 14
4.3.5 定制报警通知 14
4.3.6 大屏三维可视化呈现 14
4.3.7 异地分布式监控 15
4.3.8 运维大数据功能 15
4.3.9 硬件识别功能 15
4.3.10 大规模、高并发监控 15
4.3.11 秒级响应 15
4.3.12 操作简便快捷 15
4.3.13 良好的可靠性和先进性 16
4.3.14 系统灵活扩容和升级 16
5 HYDO智能运维监控平台方案 16
5.1 大屏展示 16
5.2 综合展示 19
5.3 网络管理 21
5.3.1 拓扑管理 21
5.3.2 真实设备背板图 23
5.3.3 设备性能分析 24
5.3.4 链路性能分析 24
5.4 服务器管理 25
5.4.1 服务器性能监控 25
5.4.2 服务器性能监控 27
5.4.3 硬件监控 27
5.5 对WINDOWS系统的监控 28
5.6 对LINUX操作系统的监控 29
5.7 数据库管理 29
5.7.1 数据库性能监控 29
5.7.2 自定义SQL语句功能 30
5.8 中间件管理 31
5.8.1 中间件性能监控 31
5.9 应用管理 31
5.9.1 应用性能监控 31
5.9.2 应用定制化监控 31
5.10 摄像头管理 32
5.11 配置管理 32
5.12 IP地址簿管理 33
5.13 存储管理 34
5.14 虚拟化管理 35
5.14.1 虚拟机总体监控 35
5.14.2 宿主机监控 36
5.14.3 虚拟机监控 36
5.15 巡检管理 36
5.16 故障管理 37
5.16.1 报警机制及策略 37
5.16.2 事件过滤 38
5.16.3 报警方式 39
5.16.4 告警记录查看 41
5.16.5 报警事件处理的注释与查看 42
5.17 报表管理 42
5.18 异地监控 42
5.19 动力环境监控管理 43
5.19.1 UPS监控 44
5.19.2 精密空调监控 44
5.19.3 温湿度监测 44
5.19.4 区域漏水监测 44
5.19.5 消防监测 45
5.19.6 门禁系统 45
5.19.7 红外监控 45
6 智能运维监控平台实施效果 45
6.1 实现全面、完整的统一管理 45
6.2 实现IT设施透明化管理 45
6.3 事前的运维管理，主动反映故障隐患 46
6.4 灵活多样的通知方式 46
6.5 实现协同管理 46
6.6 实现专业化大数据分析 46
6.7 提供开放接口，易于系统扩展 46
6.8 简单易用性 47

1 项目概况
1.1 项目背景
随着信息化发展，云计算、高性能集群等应用规模不断扩大、机房设备数量不断增加。传统的厂商监控工具无法满足运维人员日常工作需要，反之会给运维人员增加负担，传统的设备厂商监控工具有管网络设备的，有管机房环境的，有管主机服务器的，有管数据库、中间件的等。各管一滩、各自为政，这样让维护业务系统成为一个难题，一旦某个业务运行缓慢甚至中断时，无法及时判断问题根源，所以需要建立一套实时、统一、集中有效的智能运维监控管理平台。
2 现状概述
2.1 当前现状分析
信息化时代的来临，渗透各行各业中，IT基础设施的架构越来越复杂，针对机房中设备不同品牌不同型号及不同业务系统，单纯凭某个监控工具或某个人，已经不能胜任如此大的运维工作量和满足信息中心监控需求。
无法实现对虚拟化、存储、机房动力环境等IT基础设施的监控管理，信息中心也逐渐的开始意识到建立一套新的统一、集中有效的智能运维监控管理平台显得格外重要。
2.2 当前面临的运维问题
目前中国妇女报的IT管理主要面临以下问题：
 机房动力环境运行监测薄弱
目前没有对动力环境进行监控管理的智能化系统，需对机房动力系统（包括主要配电设备、UPS电源监控）、环境系统（机房专用精密空调系统、漏水系统、温湿度）实行完善的监控和控制功能，能对发生的各种事件都结合机房具体情况及时准确的给出处理信息，提示值班人员进行操作。
 网络管理覆盖不足
 缺乏统一的运维管理平台
没有对机房环境、网络设备、主机服务器、系统资源及应用软件的运行状况进行实时监测。不能提前预警、及时告警，导致信息滞后。同时，由于没有形成一套完整的监控平台，运维人员不能对业务及业务相关联的资源进行总体监控和掌握，只能分割的管理各个部分，不能形成有效的、统一的运行维护管理。
 IT系统运维状态无法全景的展现
无统一的机房整体运行状态信息展示界面
3 需求分析
3.1 传统运维工具局限性
结合上面针对目前运维问题，总结起来即：传统的运维方式无法实现对繁多的IT基础设施、业务系统、机房动力环境、虚拟化、安全等设备实现自动、高效的统一管理。
HYDO智能运维大数据管理平台具有先进的系统架构，结合大数据分析及人工智能等功能，管理范围能覆盖日常运维涉及的网络设备、服务器、应用系统、虚拟化、存储、动力环境、安全设备等，提供全年724小时监测管理，对异常及时预警，对故障即时报警，使运维管理人员可实时掌握IT运行状态。平台提供灵活、完整的运维数据报表，为数据中心的扩容及发展提供基础数据；通过直观、极具科技感的大屏实时展示数据中心整体运行状态，平台具有网络配置管理、IP地址管理和自动巡检等功能，能够极大的减少运维人员的工作量和降低运营风险，使数据中心的运维工作实现自动化、数字化和可视化。。
3.2 具体需求分析
针对当前信息化现状，该智能运维监控平台的建设从技术要求上需要重点考虑以下方面：
 能够对网络系统内的各种设备进行跨厂家、跨平台的统一管理，能针对各厂家产品提供统一的管理界面，实现对基础设备的”透明化、精细化、全面化“管理。
 能够对机房中的交换机、路由器、防火墙、负载均衡、网关、服务器、无线设备进行状态、性能监控。
 能够对机房UPS、电源、烟感、门禁、水浸、空调等动力环境设备进行状态、性能集中监控和管理。
 能够对办公场所的电脑、打印机、复印机、IP摄像头等进行状态监控，出现故障能够即时告警，主动告之运维人员。
 具备跨平台管理的能力，保护设备和系统投资
 从保护投资角度和后续扩容的多角度方面考虑，需要系统能够对市面上主流厂家的设备和系统做到全面兼容。
 能够自动的发现整个网络的真实物理拓扑结构
 系统能够自动发现各个设备间真实的物理连接，真正掌握设备间的连接情况，形成真实的物理拓扑图。
 具备丰富的应用服务管理功能，提供对服务器、存储设备和应用管理
 实现对服务器主机系统、数据库、中间件、应用、虚拟化、存储等，实现业务系统相关资源的统一监管。
 具备丰富的告警功能，保障全天候监控信息化状况
 系统管理员不在机房时，系统应能够主动发现可疑问题和故障源头，并可以通过微信、邮件、手机短信、声音等各种方式来通知管理员，以便及时处理问题。
4 建设方案
4.1 建设目标
4.1.1 实现自动监控主动预警管理
通过运维平台代替人工对IT资源的巡检监控管理，扭转IT运维被动救火的服务状态,避免监测盲点；建立有效的预警和故障自动修复机制,并保持IT运行监控与IT项目建设同步成长。
4.1.2 实现IT设备设施统一集中监控
IT资源（架构）涉及数量庞大的主机设备、数据库、业务应用系统等。运维管理平台能够跨越各个技术层面、各个设备厂商，对IT资源（架构）实现统一监控和集中管理。
能够实现对各业务应用系统进程、日志、端口的统一监控；运维平台将具有良好的扩展能力，支持个性化的业务关键性能监控；能够灵活配置监控的检测频率和报警阈值。
4.1.3 实现网络拓扑、业务拓朴的全景化、可视化管理
运维平台能够有序地梳理IT资源运行状况与IT环境基础架构，不仅为IT技术保障人员提供统一的管理平台，也能够为使用者和管理者提供统一展现IT资源运行状态和IT基础架构的全景化视图。
以业务为主线梳理错综复杂的IT基础架构，建立每个业务通向IT资源性能监测点的关联视图。业务关联视图能够按照设备的分布区域、业务应用系统类型以及设备类型等多个角度划分多层子视图。业务和部门关联一旦建立，能够支持灵活的配置修改界面，使业务管理视图能够快速与业务应用系统的开发和整合保持同步。
运维平台可以提供IT基础设施资源724小时不间断的监控，当服务器操作统、数据库超过预设的阈值时会实现主动的事件报警，使运维人员能够及时发现故障，避免故障扩散。
4.1.4 IT资产统计管理，实现便捷的资产生命周期管理维护
运维平台通过自动采集、手动录入的方式，为管理者提供