高温预警,快收下这份机房运维攻略

高温预警

图片

华东区即将迎来最强高温,根据历史经验,数据机房在夏季高温环境导致设备温度过高,宕机事件明显增加,为保障系统健康稳定运行,需要针对数据机房空调、设备的运行状态及环境进行检查,并同时期开展防尘网/过滤网的清洁工作。

高温防护重点检查事项

1、机房空调配置

参考建议:需N+1冗余配置,无冗余及冗余不足的区域需要重点关注。

2、空调运行状态

参考建议:送风温度在18-25℃,回风28-35℃;定期检查,设备无异常告警。

3、机柜进风口温度

参考建议:进风口温度18-27℃,设备防尘网需保持清洁无脏堵,保证散热通畅。

4、空调外机维护

参考建议:空调室外机易被柳絮尘灰堵塞,影响换热,需定期维护,可用水枪冲洗或者软毛刷清理。

5、设备运行温度

参考建议:建议低于45℃,设备无高温告警。

6、设备风扇运行情况

参考建议:清理设备、防尘网灰尘,确保设备散热不受阻碍。

7、UPS蓄电池

参考建议:可接入在线监测系统,实时在线监测蓄电池的温度情况,及时发现异常,第一时间处理。

高温危害案例

案例一、腾讯也曾深受其害

23年3月,腾讯出现微信、QQ等旗下社交软件功能异常,包括账号登陆、文件传输、朋友圈、微信支付等多个功能无法正常使用。最终查明本次大面积网络服务中断是由机房制冷系统故障,温度上升导致多台机器宕机导致。

故障的解决措施也是非常接地气:冰桶降温。

图片

降温是 IT 机房事故抢救基操,用冰桶降温简单高效,快速降温恢复业务是王道。

案例二、谷歌云和甲骨文也被热崩了

英国经历了破纪录的高温,气温高达40摄氏度。高温之下,数据中心也被热出故障。谷歌和甲骨文公司位于伦敦的云数据中心当地时间周二出现故障,致使部分网站瘫痪。

两家公司均表示冷却系统出现问题导致断网。甲骨文公司在服务页面上指出,“不合理的温度”影响了其伦敦南部设施的云服务和网络设备。

案例三、45℃高温,推特数据中心停摆

9月,美国加利福尼亚州萨克拉门托市中心达到了45℃,位于萨克拉门托的推特数据中心发生故障停摆。

解决方案

高温频发,机房运维的紧张感就从未消失过,悉数过去十年互联网大厂的故障案例,我们得到教训:如果风险无法完全消灭,我们只能控制与预定风险的大小。

通过智能运维监控,可实现对机房设备全生命周期管理,运维工程师通过机房动环监控,获取IT机房内部各项关键信息,包括模块内的温度、湿度、漏水、烟雾等情况,一旦出现告警,系统可以快速定确定故障位置,省去人工排查时间,对异常问题及时处理,保障系统的稳定运行。

除此之外,7*24在线值守,自动巡检,异常快速响应等也在实践中产生巨大价值。

7*24在线值守

监控设备运行状态,对各种安全设备的日志检查,对重点事件进行记录,判断安全事件产生原因并解决,及时发现问题,防患于未然。

自动巡检,敏锐预见

实时或定时对设备及网络进行全面检查,及时发现潜在问题,保障设备稳定运行。

突发事件,快速应对

突发中断或严重影响业务的故障,如宕机、数据丢失、业务中断等,能快速响应和处理,在最短时间内恢复业务系统,将损失降到最低。

开启高效运维,点击试用👇

图片

声明:原创内容,转载请注明。

IDC机房应急预案 凡系统发生故障时,网管运行监控负责人必须立即组织抢修不得拖延。 凡系统发生故障时,网管运行监控负责人必须立即组织抢修不得拖延。 凡系统发生故障时,网管运行监控负责人必须立即组织抢修不得拖延。 凡系统发生故障时,网管运行监控负责人必须立即组织抢修不得拖延。 凡系统发生故障时,网管运行监控负责人必须立即组织抢修不得拖延。 凡系统发生故障时,网管运行监控负责人必须立即组织抢修不得拖延。 凡系统发生故障时,网管运行监控负责人必须立即组织抢修不得拖延。 凡系统发生故障时,网管运行监控负责人必须立即组织抢修不得拖延。 凡系统发生故障时,网管运行监控负责人必须立即组织抢修不得拖延。 凡系统发生故障时,网管运行监控负责人必须立即组织抢修不得拖延。 凡系统发生故障时,网管运行监控负责人必须立即组织抢修不得拖延。 凡系统发生故障时,网管运行监控负责人必须立即组织抢修不得拖延。 运行监控人员均应熟悉故障紧急处理流程,练掌握操作步骤和方法。 运行监控人员均应熟悉故障紧急处理流程,练掌握操作步骤和方法。 运行监控人员均应熟悉故障紧急处理流程,练掌握操作步骤和方法。 运行监控人员均应熟悉故障紧急处理流程,练掌握操作步骤和方法。 运行监控人员均应熟悉故障紧急处理流程,练掌握操作步骤和方法。 运行监控人员均应熟悉故障紧急处理流程,练掌握操作步骤和方法。 运行监控人员均应熟悉故障紧急处理流程,练掌握操作步骤和方法。 运行监控人员均应熟悉故障紧急处理流程,练掌握操作步骤和方法。 运行监控人员均应熟悉故障紧急处理流程,练掌握操作步骤和方法。 运行监控人员均应熟悉故障紧急处理流程,练掌握操作步骤和方法。 运行监控人员均应熟悉故障紧急处理流程,练掌握操作步骤和方法。 运行监控人员均应熟悉故障紧急处理流程,练掌握操作步骤和方法。 运行监控管理人员应如实上报故障情况,告当做到时间清、 原因运行监控管理人员应如实上报故障情况,告当做到时间清、 原因运行监控管理人员应如实上报故障情况,告当做到时间清、 原因运行监控管理人员应如实上报故障情况,告当做到时间清、 原因运行监控管理人员应如实上报故障情况,告当做到时间清、 原因运行监控管理人员应如实上报故障情况,告当做到时间清、 原因运行监控管理人员应如实上报故障情况,告当做到时间清、 原因运行监控管理人员应如实上报故障情况,告当做到时间清、 原因运行监控管理人员应如实上报故障情况,告当做到时间清、 原因运行监控管理人员应如实上报故障情况,告当做到时间清、 原因运行监控管理人员应如实上报故障情况,告当做到时间清、 原因运行监控管理人员应如实上报故障情况,告当做到时间清、 原因结果清。 结果清。 结果清。 重大故 障和严要报上级业务主管领导。对已处理的重大故 障和严要报上级业务主管领导。对已处理的重大故 障和严要报上级业务主管领导。对已处理的重大故 障和严要报上级业务主管领导。对已处理的重大故 障和严要报上级业务主管领导。对已处理的重大故 障和严要报上级业务主管领导。对已处理的重大故 障和严要报上级业务主管领导。对已处理的重大故 障和严要报上级业务主管领导。对已处理的重大故 障和严要报上级业务主管领导。对已处理的重大故 障和严要报上级业务主管领导。对已处理的重大故 障和严要报上级业务主管领导。对已处理的重大故 障和严要报上级业务主管领导。对已处理的障, 事后必须做故分析查清原因确定性质和责任采取防范措施障, 事后必须做故分析查清原因确定性质和责任采取防范措施障, 事后必须做故分析查清原因确定性质和责任采取防范措施障, 事后必须做故分析查清原因确定性质和责任采取防范措施障, 事后必须做故分析查清原因确定性质和责任采取防范措施障, 事后必须做故分析查清原因确定性质和责任采取防范措施障, 事后必须做故分析查清原因确定性质和责任采取防范措施障, 事后必须做故分析查清原因确定性质和责任采取防范措施障, 事后必须做故分析查清原因确定性质和责任采取防范措施障, 事后必须做故分析查清原因确定性质和责任采取防范措施障, 事后必须做故分析查清原因确定性质和责任采取防范措施障, 事后必须做故分析查清原因确定性质和责任采取防范措施障, 事后必须做故分析查清原因确定性质和责任采取防范措施障, 事后必须做故分析查清原因确定性质和责任采取防范措施障, 事后必须做故分析查清原因确定性质和责任采取防范措施障, 事后必须做故分析查清原因确定性质和责任采取防范措施避免同类故障再次发生。 避免同类故障再次发生。 避免同类故障再次发生。 避免同类故障再次发生。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值