数据中心运维方案主要包括四个部分
基础环境、网络、服务器存储、基础软件
第一部分机房基础环境部分:
机柜的位置、空调、消防、安防、弱电、UPS等基础的机房环境设施。
需要对基础部分进行运维维护,确保整个机房环境正常稳定。
第二部分网络环境部分:
数据中心所有的交换机、路由器等设备,以及由这些设备所组成的所有网络。
需要监控网运行的情况并提出网络风险评估,定期对网络进行优化配置,提高网络运行效率,保证整个网络环境的安全。
第三部分服务器和存储部分:
包含整个数据中心的小型机、服务器、存储设备,SAN交换机等设备。
这些设备支持着整个业务系统,非常重要的基础的硬件环境,需要监控这些设备的运行情况,及时处理出现的问题,并基于整个环境提供优化。
第四部分基础软件部分:
各种操作系统、数据库、中间件、备份软件等
要求这些软件正常运行工作,并优化配置,为平台和工作站正常服务,当软件出现问题时,提出解决方案,协助应用人员解决故障并进行对应的变更、升级。
确保数据中心正常、高效运行。
数据中心运维分类
前期:运维团队针对当前数据中心的实际情况和对应的管理制度,主动、预防性的维护。
中期:在执行日常维护工作中,对告警、性能、运行状态进行分析,及时进行数据备份,并定期对备份数据进行恢复性测试,对系统进行质量检测,做好维护记录。
后期:在运行过程中监控发现了问题,做好及时的处理,消除隐患,保障平台稳定运行。
基础环境运维管理
针对机房环境设施
1.机房机柜摆放和机柜管理。
2.服务器和网络设备摆放规划和日常管理。
3.设备出入机房审批登记管理。
4.内部人员出入机房审批登记管理。
5.外部来宾机房参观审批登记管理。
6.机房的电力系统监控、问题及时上报。
7.消防监控系统监控,接收报警短信和联系原厂和我们的技服人员解决。
8.空调报警系统监控接收报警信息和联系原厂和我们的技服人员解决。
9.温湿度报警监控,接受报警短信和联系原厂和我们的技服人员解决。
10.漏水报警系统监控,接受报警短信和联系原厂和我们的技服人员解决。
11.IC卡门禁系统日常运维。
12.视频监控系统日常运维。
13.UPS报警系统监控和联系原厂和我们的技服人员解决。
14.机房资产管理系统(CMDB)。
15.机房环境。
16.巡视电池间,检查电池工作状态。
17.确认机房照明状态是否良好。
18.视频网络播放系统,定期检查可用性,有问题及时联系原厂和我们的技服人员解决。
19.填写巡检记录。
网络运维管理
针对数据中心的网络部分
1.测试网络的接人速度,监控网络访问可用性和访问质量,出现问题第一时间直接联系接入商。
2.网络接入商发生变化时,配合网络接入商对网络变更方案的可行性审查、问题审查、配合网络接入商更替施工。
3.局域网,本地局域网日常管理和维护,vlan划分,网络性能优化,网络节点周期性检查,发现潜在问题,并解决。
4.无线局域网,负责无线局域网的日常管理和维护,客户端不能正常接入网络的故障排除,网课性能优化,故障排除,网络节点周期性检查,发现潜在问题并解决。
5.远程接入,制定VPN使用策略,实施VPN用户日常远程接入服务器的管理,以及性能优化和故障排除。
6.漏洞扫描,网络病毒查杀和网络安全保护。
7.根据实际项目或安排产生的其他工作。
服务器和存储运维管理
对系统运行进行实时检查,对服务器物理资源的使用情况和操作系统的运行情况,进行监控,提供服务器安全检测报告
1.CPU利用率
2.内存使用情况
3.交换机使用情况
4.磁盘I/O情况
5.关键文件系统的状态
6.重要进程的运行情况(例如程数量、消耗CPU、占用内存)
7.操作系统的各类日志文件
8.网络、端口信息
……
A.服务器软硬兼容性检查
B.磁盘陈列设备管理
C.文件系统空间管理
D.数据库空间管理
E.机柜、电源、网络布局管理
基础软件运维管理部分
1.操作系统
(1)系统升级 运维团队在维护系统稳定运行的同时,需主动收集系统关键补丁,软件补丁等信息,通过数据中心专家评审的前提下,对相关的系统进行升级服务,并在升级完成后配合应用方对系统进行测试,升级前后需要和应用方及时做好沟通确认工作,确保不会长沙兼容性导致的故障。
(2)操作系统稳定性 监控定时查看操作系统日志及IIS日志,查看CPU、内存占用率、排除故障。
(3)权限与文件管理
服务器应明确责任人及管理账号持有人,不应出现多人单账户,单人多账户,不利于在服务器出现问题后,对服务器进行操作维护,查找问题。
(4)定期检查磁盘空间
进行磁盘文件排列的优化和错误扫描,并处理错误,安全地删除系统各路径下存放文件,无用文件、备份文件等,完全释放磁盘空间。
(5)维护系统注册表
(6)系统配置,优化系统配置,关闭无用服务和端口,以最适合系统运行方式,最小化安装等,维护系统配置文档。
(7)负责系统用户管理
如增加,删除用户,重置用户密码,管理用户权限等,进行系统用户管理时,记录所有相关系统变更。
(8)对于新安装的服务器,运维团队应负责安装必要的应用软件:如远程监控工具,备份工具,防病毒软件等。
数据库
运维团队对数据进行日常维护,在数据库性能监控的检查列表包括:
资源使用情况
运行情况
数据库连接状态
数据库进程使用资源
数据库的表空间使用情况
数据库日志空间
回滚段使用情况(存放数据修改之前的值包括数据修改之前的位置和值)
数据库锁🔒的数量
死锁的发生、死锁资源
数据库碎片文件的数量
磁盘I/O口
数据库运行日志
数据库用户登录情况
监控结果应做登记管理,如实记录系统日常运行状况及异常情况,填写日常运行情况记录表
除此之外,数据库的运维工作还包括
(1)数据库备份和恢复
(2)做好备份计划,应备份占用内存教大,在访问量大的情况下,当出现数据问题,向采购人管理部门进行通报,说明数据情况,后再恢复。
(3)访问性能优化及数据库同步
(4)服务器管理人员需记录详细的设置,数据库如需同步,应明确同步时间或同步等方式。
(5)数据库日志和表空间,定期数据整理,问题解决。
3.中间件
……
4.备份系统
5.应用系统
😭停了一周还是没写完