一场TB级数据误删除引起的机构内部运维制度变革

一、事件发生

私有云平台一直安全稳定运行,未出现过任何问题,突然有一天,运维人员发现NAS存储里存放的数据量变少了。于是立即告知领导,采取紧急手段,定位问题原因。

二、定位问题

运维人员在日常巡检时发现文件存储中的文件在大量减少,怀疑为应用程序有异常删除情况,立即联系应用厂家联合排查,经过1天的定位,终于发现是由于厂家运维人员使用了不恰当的命令导致的,厂家的运维人员对linux操作系统的/tmp目录的删除机制不清楚,其错误将NAS存储的路径挂载到了服务器的 /tmp下了,mount -t nfs /文件存储目录/ /tmp/,操作系统认为/tmp为系统临时目录,系统开始自动删除该目录下的文件,导致了十多个TB的视音频、图片文件丢失。

三、制度变革

以上的数据丢失的惨痛,让我们深刻认识到,运维人员操作的重要性,更要加强运维人员的操作规范和监督机制。从以下方面详细说明了我单位在运维方面的制度变革。

1.1 机房出入

每次进入机房前,填写《机房出入审批单》说明进入机房事项,报送领导审批。

1.2 设备巡检

每周前往机房巡检硬件设备一次,巡检人员严格按照《机房硬件设备巡检记录表》的内容,认真逐一检查,发现问题及时告知值班人员、资产责任人和领导,同时拍照或者拍视频留存。

1.3 设备维护检修

进入机房实施作业,需至少两名我方人员在场,并记录《私有云运维操作申请记录单》。

1.3.1 不影响业务的情况

记录《私有云运维操作申请记录单》抄送领导。如:对漏洞扫描、日志审计、主机防护、数据库审计等旁路设备操作时。

1.3.2 可能影响业务的情况

1)将实施方案和应急预案报送上级主管部门审批或者本单位内部审批。

2)所有可能影响业务的情况,需要零点以后进行操作,按照《私有云运维操作申请记录单》报送本部门领导审批,记录存档。

1.4 部署规范

1.4.1高可用

系统重要的功能全部需具备高可用性,不存在单点故障,不论是虚拟机、中间件还是应用程序出现问题,都可以自动切换到备用节点,不需要人工干预,做到秒级切换,用户几乎无感知。

1.4.2 可扩展

系统出现访问量突增时,可以进行动态扩展,通过增加服务器节点、应用软件扩容等方式扩展业务。

1.4.3松耦合独立部署

系统所有的功能均需松耦合独立部署,不可出现一台虚拟服务器承载多种业务的情况,尤其是数据库和重要应用,必须独立部署,确保当操作系统出现问题时影响范围最小。

1.4.4安全性

域名全部增加CDN、WAF等。虚拟机全部部署主机防护、日志审计软件。增加CDN的域名可以隐藏系统源站IP,更加安全;CDN的源站健康检查策略,可以实现移动或者联通互联网出口任意一条线路中断,不影响系统业务,实现了一条链路中断的无缝切换,不需要手动修改A记录。部署了主机防护和日志审计的虚拟机,安全管理员可以统一管理、下发安全策略和日志留存等,满足安全合规需求。

1.4.5生产环境与测试环境分离

生产环境和测试环境的域名、CDN、公网IP、虚拟机、操作系统、中间件和应用软件等全部要分离部署,通过在私有云开通一个新的VPC对生产环境和测试环境隔离,实现两套环境的无交集。

1.4.6生产环境与测试环境1:1部署

生产环境和测试环境使用到的域名、CDN、公网IP、虚拟机、存储等服务,全部使用同一套资源,做到测试环境可以模拟生产环境进行压力测试,性能测试和功能测试等。

1.4.7内网调用采用域名调用

内网服务器之间相互调用时,需要使用内网域名进行,不可采用IP的方式进行。便于运维人员维护和升级优化迭代。

四、总结

以上就是在数据误删除后的一些管理机制变革,同时我单位还进行了数据灾备,加强数据的备份工作。

  • 20
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值