数据中心运维管理方案

数据中心运维方案主要包括四个部分

基础环境、网络、服务器存储、基础软件

第一部分机房基础环境部分:

机柜的位置、空调、消防、安防、弱电、UPS等基础的机房环境设施。

需要对基础部分进行运维维护,确保整个机房环境正常稳定。

第二部分网络环境部分:

数据中心所有的交换机、路由器等设备,以及由这些设备所组成的所有网络。

需要监控网运行的情况并提出网络风险评估,定期对网络进行优化配置,提高网络运行效率,保证整个网络环境的安全。

第三部分服务器和存储部分:

包含整个数据中心的小型机、服务器、存储设备,SAN交换机等设备。

这些设备支持着整个业务系统,非常重要的基础的硬件环境,需要监控这些设备的运行情况,及时处理出现的问题,并基于整个环境提供优化。

第四部分基础软件部分:

各种操作系统、数据库、中间件、备份软件等

要求这些软件正常运行工作,并优化配置,为平台和工作站正常服务,当软件出现问题时,提出解决方案,协助应用人员解决故障并进行对应的变更、升级。

确保数据中心正常、高效运行。

1e2daafc742f4b7e8680ed3c7a077d40.jpg

 

 数据中心运维分类

前期:运维团队针对当前数据中心的实际情况和对应的管理制度,主动、预防性的维护。

中期:在执行日常维护工作中,对告警、性能、运行状态进行分析,及时进行数据备份,并定期对备份数据进行恢复性测试,对系统进行质量检测,做好维护记录。

后期:在运行过程中监控发现了问题,做好及时的处理,消除隐患,保障平台稳定运行。

c184bd2d55e540e7862382a45390347b.gif

 

 基础环境运维管理

针对机房环境设施

1.机房机柜摆放和机柜管理。

2.服务器和网络设备摆放规划和日常管理。

3.设备出入机房审批登记管理。

4.内部人员出入机房审批登记管理。

5.外部来宾机房参观审批登记管理。

6.机房的电力系统监控、问题及时上报。

7.消防监控系统监控,接收报警短信和联系原厂和我们的技服人员解决。

8.空调报警系统监控接收报警信息和联系原厂和我们的技服人员解决。

9.温湿度报警监控,接受报警短信和联系原厂和我们的技服人员解决。

10.漏水报警系统监控,接受报警短信和联系原厂和我们的技服人员解决。

11.IC卡门禁系统日常运维。

12.视频监控系统日常运维。

13.UPS报警系统监控和联系原厂和我们的技服人员解决。

14.机房资产管理系统(CMDB)。

15.机房环境。

16.巡视电池间,检查电池工作状态。

17.确认机房照明状态是否良好。

18.视频网络播放系统,定期检查可用性,有问题及时联系原厂和我们的技服人员解决。

19.填写巡检记录。

ae9dbb8e49354623ab0e2717a3c393cd.jpg

 网络运维管理

针对数据中心的网络部分

1.测试网络的接人速度,监控网络访问可用性和访问质量,出现问题第一时间直接联系接入商。

2.网络接入商发生变化时,配合网络接入商对网络变更方案的可行性审查、问题审查、配合网络接入商更替施工。

3.局域网,本地局域网日常管理和维护,vlan划分,网络性能优化,网络节点周期性检查,发现潜在问题,并解决。

4.无线局域网,负责无线局域网的日常管理和维护,客户端不能正常接入网络的故障排除,网课性能优化,故障排除,网络节点周期性检查,发现潜在问题并解决。

5.远程接入,制定VPN使用策略,实施VPN用户日常远程接入服务器的管理,以及性能优化和故障排除。

6.漏洞扫描,网络病毒查杀和网络安全保护。

7.根据实际项目或安排产生的其他工作。

97cdb7626d964537a06118869892c38f.jpg

 

 服务器和存储运维管理

对系统运行进行实时检查,对服务器物理资源的使用情况和操作系统的运行情况,进行监控,提供服务器安全检测报告

1.CPU利用率

2.内存使用情况

3.交换机使用情况

4.磁盘I/O情况

5.关键文件系统的状态

6.重要进程的运行情况(例如程数量、消耗CPU、占用内存)

7.操作系统的各类日志文件

8.网络、端口信息

……

A.服务器软硬兼容性检查

B.磁盘陈列设备管理

C.文件系统空间管理

D.数据库空间管理

E.机柜、电源、网络布局管理

955824b097024aa08e17338d8a1eadac.jpg

 基础软件运维管理部分

1.操作系统

(1)系统升级     运维团队在维护系统稳定运行的同时,需主动收集系统关键补丁,软件补丁等信息,通过数据中心专家评审的前提下,对相关的系统进行升级服务,并在升级完成后配合应用方对系统进行测试,升级前后需要和应用方及时做好沟通确认工作,确保不会长沙兼容性导致的故障。

(2)操作系统稳定性   监控定时查看操作系统日志及IIS日志,查看CPU、内存占用率、排除故障。

(3)权限与文件管理

服务器应明确责任人及管理账号持有人,不应出现多人单账户,单人多账户,不利于在服务器出现问题后,对服务器进行操作维护,查找问题。

(4)定期检查磁盘空间

进行磁盘文件排列的优化和错误扫描,并处理错误,安全地删除系统各路径下存放文件,无用文件、备份文件等,完全释放磁盘空间。

(5)维护系统注册表

(6)系统配置,优化系统配置,关闭无用服务和端口,以最适合系统运行方式,最小化安装等,维护系统配置文档。

(7)负责系统用户管理

如增加,删除用户,重置用户密码,管理用户权限等,进行系统用户管理时,记录所有相关系统变更。

(8)对于新安装的服务器,运维团队应负责安装必要的应用软件:如远程监控工具,备份工具,防病毒软件等。

数据库

运维团队对数据进行日常维护,在数据库性能监控的检查列表包括:

资源使用情况

运行情况

数据库连接状态

数据库进程使用资源

数据库的表空间使用情况

数据库日志空间

回滚段使用情况(存放数据修改之前的值包括数据修改之前的位置和值)

数据库锁🔒的数量

死锁的发生、死锁资源

数据库碎片文件的数量

磁盘I/O口

数据库运行日志

数据库用户登录情况

监控结果应做登记管理,如实记录系统日常运行状况及异常情况,填写日常运行情况记录表

除此之外,数据库的运维工作还包括

(1)数据库备份和恢复

(2)做好备份计划,应备份占用内存教大,在访问量大的情况下,当出现数据问题,向采购人管理部门进行通报,说明数据情况,后再恢复。

(3)访问性能优化及数据库同步

(4)服务器管理人员需记录详细的设置,数据库如需同步,应明确同步时间或同步等方式。

(5)数据库日志和表空间,定期数据整理,问题解决。

3.中间件

……

4.备份系统

5.应用系统

😭停了一周还是没写完

 

 

 

 

 

 

 

 

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值