服务器监控功能实现

目前XXXX没有对服务器实现全面的监控管理,微软建议建立基于System Center Operation Manager 2007 (SCOM 2007)为基础平台的服务器运维平台。

对于服务器的本身的运行状况,性能状况,应用程序运行状况的监控,是服务器管理方面非常重要的管理项目。

需要实现从硬件底层的监控,操作系统平台的监控,一直到应用程序监控的多层面监控要求。

监控包括健康状态提示,故障自动告警,故障告警后自动的知识库提示,操作人员操作的安全审计管理,运维整体报表管理等多角度。

基于微软System Center平台另外一个重要解决方案System Center Operations Manager 2007可以方便实现以上所有服务器运维监控管理的要求。

4.10.1服务器状态监控

SCOM 2007面向各种规模的企业单位实现了Windows服务器事件与性能监控的集中化目标。为应对这种合并趋势可能引发的潜在的信息“洪流”,MOM预先内建了大量“知识”储备,可供应用程序对信息含义进行评估,并就所应做出的响应提供决策。上述知识主要以管理软件包形式出现,不仅有助于在故障发生的第一时间尽快诊断出问题根源并做出适当反应,而且,还可通过就问题隐患向管理人员发出警告,并在其发生前提供解决方案建议的方式来预防故障事件的实际发生。

SCOM 2007主要具备以下特性和优势:

· 具备可扩展内建知识储备的管理软件包。

· 集中化服务器事件与性能监控特性。

· 具备高度可伸缩性的分布式体系结构。

· 针对基于Windows操作系统的服务器性能实施监控的能力。

· 针对基于Windows操作系统的服务器事件实施监控的能力。

· 根据警告提示执行专项操作的能力。

· 和第三方管理产品实现事件集成的能力和通过第三方厂商提供的管理软件包实现对包括路由器和非Windows系统在内的整体监控能力。

4.10.2 服务器安全审计管理

对于服务器的安全操作事件,需要通过安全审计的方式进行记录,以及通过安全审计报表来统计相关的安全操作行为。

SCOM 2007具有安全审计日志管理功能(Audit Collection Service)。可以针对服务器的各种安全事件进行完全的记录和统计,并且通过现成的安全统计报表进行展现。对管理员在服务器上的所有相关安全类的操作进行安全的审计和记录。

SCOM 2007默认提供了如下的安全审计报表:

帐号的非法管理:

用户帐号删除/创建,激活/不激活

管理组成员变更

修改用户密码

计算机帐号创建/删除

非法访问:

未授权的文件,目录,或其他对象的访问

帐号锁定

策略违反:

审计策略更改

对象权限变更

帐号审计变更

权限增加/删除

系统完整性:

丢失事件

审计失败

日志清空

4.10.3服务器今后故障处理管理

System Center将在不久推出完全基于国际IT权威组织ITIL的管理服务台管理平台System Center Service Manager 2008。此平台可以完全和System Center Operation Manager 2007整合,今后的故障处理,可以完全是基于一个预先定义好的故障处理工作流程进行自动化的流转,例如,从SCOM 2007出现的一个故障告警,可以自动启动一个故障处理工作流程,此流程通过SCOM 2007发出一个警告,触发Service Manager平台启动一个共组流程,流程按照实现的定义,按照角色的等级,事件的严重等级,以及服务级别时间要求等,自动根据规则进行流转,一直到问题的恢复。

此平台也是企业的知识库管理平台,员工的IT自我服务平台,以及所有IT变更管理,资产配置管理的统一平台。

4.10.4服务器维报表管理

SCOM2007的报表采用了SQL server的reporting service的组件实现企业运维数据报表展现的能力。对应用监控数据的报表,这些报表全都包含在各自平台的现有的报表模板中,以及应用的管理软件包中,只要将各自的管理软件包加载到服务器上,就自动具有这些应用的报表模版。用户可以非常方便地进行报表的展现。用户可以非常方便地进行报表的客户化的工作。

现有的报表包括:

服务器的硬件配置一览表;

服务器软件配置一览表;

服务器补丁信息一览表;

服务器安全漏洞信息一览表;

服务器性能趋势分析表

服务器故障分析表等等。

大量现成的服务器运维管理所需要的管理报表模板,都可以方便的转换成PDF, Excel, Html等各式进行管理。

当然,如果使用微软的Visual Studio .Net的工具,用户可以定制丰富的客户化的报表来满足用户具体的报表需求。

4.10.5服务器系统备份管理

对于服务器的全面备份/恢复管理也是服务器管理中的重要组成部分,服务器备份应该包括两个层面,应用层面的数据备份/恢复,系统状态的备份/恢复。

基于微软System Center另外重要组员System Center Data Protection Manager(SCDPM)可以全面的实现应用层面以及系统状态层面的备份/恢复。

对于应用层面,由于XXXX已经使用了Veritas作为备份解决方案,所以在此不作讨论,但是,微软建议对关键服务器可以实现系统级别的备份和裸设备的恢复。

SCDPM还可以对服务器的整体系统状态实现硬件裸设备级别的备份/恢复管理。

通过SCDPM可以实现对服务器的整体系统状态的全备份,通过此备份产生一个可以启动的ISO文件,即使发生硬件崩溃,可以通过次备份进行裸设备级别的恢复,快速恢复整个系统。

4.11整体运维平台架构

以下是对于XXXX本次运维平台的整体架构图:

建议在XXXX建立如下的管理平台:

1. 终端管理平台:

需要支持全区3000台终端管理,建议如下的配置

1台SCCM数据库服务器:2CPU, 4GB内存,360GB磁盘以上。

2台SCCM管理点服务器:2CPU, 2GB内存, 120GB磁盘以上

在分支机构,采用客户端分发点的方式来完成软件分发,所以在分支机构不考虑安放文件服务器。

2. 服务器管理平台:

需要支持20台左右服务器的管理:

1台SCOM 2007管理服务器:2CPU, 2GB内存,360G磁盘

1台DPM 2007服务器:2CPU, 2GB内存,存储空间看需要具体备份的系统数量和保存的时间段而定。