目标:保障运营服务器7*24小时正常运行
工作流程:
1、通过nginxstatus页面监视负载、web、图片服务器当前连接状况. nagios监视每台服务器所有项目的指示灯…如果灯为红色.表示相关服务器出现故障需要立即处理… 如果灯为黄色.表示相关服务器出现异常需要尽快处理.如果灯为绿色.表示目前服务一切正常.
2、通过CACTI 页面 查看相关服务器CPU、内存、负载、用户登录及网卡流量,如果任何一项的数值与上周同一时间的数值发生较大差异 就需要查看系统日志找出原因.
3、建议每三个月修改所有服务器用户密码.
4、每月提交服务器系统状况表.如:内存使用率.硬盘使用率等.
5、建议每三个月进行一次服务器硬件检查.
6、安全更新.重大漏洞即时经过测试后更新,其它漏洞每1–3月更新一次.
故障处理
1、确认故障
2、根据故障级别向主管通报
3、向客服及相关部门通报并发布相关公告
4、提出故障处理方案经主管批准后实施
5、每次处理完故障后需要在记录处理过程.格式如下:
发现故障时间. 故障具体状况
处理过程
总结故障原因及预防方法.
灾备
1、建立灾备方案
2、定期检查灾备服务器状况保证其100%可用性.
3、定期做灾备演习以应付突发情况
日常管理
1、建立管理及使用文档.
2、及时更新相关管理文档.
3、坚持专机专用理念.
4、及时的补丁更新及漏洞封堵措施
计算机运维规则
最新推荐文章于 2024-08-16 14:15:00 发布