网络规模的发展和扩大,使得应用产品技术日渐多样和复杂,越来越多的企事业单位的生产业务和日常工作将实现信息化,并通过提高信息化水平实现对内提高经营水平、对外提高服务水平的目的。各企业业务的展开越来越依赖IT系统的正常运转,生产业务日渐依赖IT部门提供的系统服务,IT部门正由“成本中心”转变为“服务中心”、“效益中心”。
随之而来的问题是IT部门将如何通过管理为企业提供更好的、可度量的、符合业务需求的服务?同时,这些服务需要能够适应业务需求以及新技术带来的影响,为新业务系统的运行提供支撑,让IT运维管理成为企业成长的助力。
何谓IT运维管理?在了解这个概念之前,我们首先需要了解一下什么是IT管理?
IT
管理是在信息化运营阶段通过运维管理制度的规范,IT管理系统工具的支持,引导和辅助IT管理人员对各种IT资源进行有效的监控和管理,保证整个IT系统稳定、可靠和永续运行,为业务部门提供优质的IT服务,以较低的IT运营成本追求业务部门较高的满意度。
简而言之,可以理解IT运维管理为:在网络的基础设施建设完成之后,整个网络处于运行状态,IT部门采用相关的管理方法,对运行环境(包括物理网络,软硬件环境等)、业务系统等进行维护管理,我们把这种IT管理的工作简称为IT运维管理。
IT
运维管理包含内容
IT
运维是IT管理的核心和重点部分,也是内容最多、最繁杂的部分,主要用于IT部门内部日常运营管理,涉及的对象分成两大部分,即IT业务系统和运维人员。其管理内容又可细分为七个子系统:
第一、设备管理:对网络设备、服务器设备、操作系统运行状况进行监控,对各种应用支持软件如数据库、中间件、群件以及各种通用或特定服务的监控管理,如邮件系统、DNS、Web等的监控与管理;
第二、数据/存储/容灾管理:对系统和业务数据进行统一存储、备份和恢复;
第三、业务管理:包含对企业自身核心业务系统运行情况的监控与管理,对于业务的管理,主要关注该业务系统的CSF(关键成功因素Critical Success Factors)和KPI(关键绩效指标Key Performance Indicators);
第四、目录/内容管理:该部分主要对于企业需要统一发布或因人定制的内容管理和对公共信息的管理;
第五、资源资产管理:管理企业中各IT系统的资源资产情况,这些资源资产可以是物理存在的,也可以是逻辑存在的,并能够与企业的财务部门进行数据交互;
第六、信息安全管理:该部分包含了许多方面的内容,目前信息安全管理主要依据的国际标准是ISO17799,该标准涵盖了信息安全管理的十大控制方面,36个控制目标和127中控制方式,如企业安全组织方式、资产分类与控制、人员安全、物理与环境安全、通信与运营安全、访问控制、业务连续性管理等;
第七、日常工作管理:该部分主要用于规范和明确运维人员的岗位职责和工作安排、提供绩效考核量化依据、提供解决经验与知识的积累与共享手段IT运行维护管理的每一个子系统中都包含着十分丰富的内容,实现完善的IT运维管理是企业提高经营水平和服务水平的关键。
IT
运维管理面临的难题
IT
运维管理是一门探讨如何提高网络应用性能的课题,怎样利用网络管理做到企业IT基础设施建设的管理、合理分配网络资源、保障生产业务、对网络规划和新业务上马提供支撑,而其最核心的目的是保障企业生产业务。
日常IT运维管理面临诸多难题,具体体现在以下多个方面:
网络设备
在企业IT基础设施的搭建过程中,底层的网络设备厂商和类型多样且复杂。随之而来的问题是:如何将不同厂商的网络和应用管理产品在界面级、消息级和数据级集成起来实现统一管理?如何让IT管理员了解到整个网络全局的运行情况、发展趋势和可能存在的故障隐患点,以便及时采取相应措施,实现事前管理。
拿北塔软件曾经碰到过的一个典型客户来说,它的网络中有11种厂商的路由交换设备,还有存储设备,安全设备,UPS等。同时还拥有:小型机,服务器等,上层的业务系统有OA和CRM等。这样大而复杂的一个网络环境,该怎么管呢?
科学的运维管理思路告诉我们,首先需要解决的是对IT基础设施的管理,管理范围要能覆盖到机房所有硬件设备。这一点是前提和基础。其次,才是对各种应用系统做到很好的监控。最后,才能为业务系统提供足够的保障。
网络流量
在绝大多数的企业网络中,存在不同程度的网络延迟,造成重要业务和应用时断时续,这直接成为企业业务的杀手。另外,网络的带宽也是企业关心的重点。比如,哪个时间段很拥挤,哪个时间段很空闲,有没有规律,怎么样去调查拥塞的原因,网络带宽都是被谁占用了,是被哪些客户端、哪些应用或者异常应用所占用了。这些都是摆在每一个企业运维管理领域中很实际的问题。
该如何很好的解决这些问题呢?
根据多年的运维管理经验得出,对于这种情况,需要采用流量分析的方式。通过对出口流量或者监控对象进行采集,进行24小时实时的监控和分析,可以对流量进行多角度多层次的挖掘分析,比如按照流量、数据包个数、连接数、协议等类别分析当前网络的负载情况,为网络的优化配置提供参考。通过报表分析展现流量特征,让IT管理员明白流量被谁、被何种应用、被何种异常行为占用得怎么样。
IT
运维管理怎么样帮助IT管理员判断和控制安全问题,也就是作为与防病毒、防火墙、IPS等安全产品不同的角色,从网络的整体情况要能够判断未知的安全问题,并提供修复方案,在不影响正常网络运行状况下将安全问题防患于未然。如果IT管理员能针对异常行为的特征建立自动告警,在某些安全攻击出现前发现故障隐患,并提供连动的判断和处理机制,这样IT管理员可以及时采取了措施避免业务遭受损失。如果能在对问题特征自动告警的同时,自动记录问题的原始数据以供事后分析,这样IT管理员可以再现数据异常行为、捕捉网络数据异动入侵记录,对症下药制订策略防止问题的再次发生。
业务系统
针对日益复杂的业务系统,现有的运维管理系统更多的强调的是功能的展现。比如,从业务主机负载、数据库服务器负载、数据库、中间件、应用系统、网际流量、进程状况等等不同角度实施联合监控,强调的是性能参数指标的多少,或者是界面的美观程度。当然,这是落实业务系统管理环节所采用的方法。
但事实上,作为企业自身来说,无论采用哪种监控也好,IT管理手段或者运维管理系统也罢,其核心总是需要围绕保障和改进企业的业务系统。
这就提出一个问题,如何来保障又如何改进企业的业务系统呢?
首先,需要了解清楚业务系统所涉及的具体环节,针对每一个环节进行管理落实。按照科学运维管理的建设思路,分为:用户—网络—硬平台—软平台—业务系统这五个环节。需要从这五个环节所涉及到的五个方面去做工作。这五个方面分别是:全局的性能管理、故障和事件管理、资源的使用状况管理、安全管理和数据分析管理。其次,通过性能和历史数据的反映,又可以做到对业务系统提供改进决策的指导。
当然,对于如何保障和改进业务系统这个问题,目前业界众说纷纭,没有统一的标准。但有一点是肯定的,就是需要从企业用户的角度出发,通过明确的管理思路作为指引,使用软件+服务的方式和企业用户共同探索和研究,最终达到对业务的保障和改进。
当前IT运维管理的任务
在企业网络运维早期,IT运维管理侧重于网络、硬件等设备。随着业务系统涉及的环节日益增多,单一的网络管理已经不足以满足管理需求,越来越多的企业已经将关注点从单一网络转变到当前的业务系统,落实保障业务系统的各个环节成为重中之重。
因此,北塔软件认为,当前国内用户最关心的莫过于如何保障业务系统的正常运行。IT运维系统应该从业务角度切入,以业务为导向,通过对整个业务系统的关注,落实业务系统的各个环节,从而来达到保证业务系统稳定运行和透明化管理的目的。
本文出自 “老孙的网络管理” 博客 http://sunyongjie.blog.51cto.com/445592/117873