c# 接管系统鼠标_4个阶段的方法来接管大型,混乱的IT系统

c# 接管系统鼠标

每个人都喜欢使用最新技术,尤其是最现代的DevOps工具来构建闪亮的新系统。 但这对于许多运营团队而言并非现实,尤其是那些运行着拥有数百万用户和大型复杂基础设施的大型系统的运营团队。

对于团队接管现有系统作为公司合并,部门合并或更改托管服务提供商(MSP)的一部分而言,情况甚至更糟。 新团队必须介入并使用他们一无所知的凌乱系统保持亮起状态。

作为中国的大型MSP,我们已经花了十年的时间来接管和管理拥有1000万至1亿用户(通常信息很少)的系统。 这可能是一个艰巨的挑战,但是我们的四阶段方法和相关工具使之成为可能。 如果您处于相似的位置,则可能会受益于我们的经验。

阶段1:止血

众所周知,任何出色的战斗医生都必须在努力工作以挽救患者的同时停止出血。 这意味着要与现有团队(尤其是最终用户)讨论系统最紧急的问题。 按顺序依次是不稳定,性能下降和安全问题。

通常,还存在一些严重的隐藏问题,例如备份失败,RAID磁盘损坏和安全端口打开等,而我们早就追逐了所有这些问题。 因此,除了调查用户的问题外,我们还对系统进行了快速扫描以查找明显的问题。 通过这些调查,我们将列出所有问题的列表,包括我们看到的问题以及以后需要修复的问题。

我们还确保所有备份(包括异地备份)都可以正常工作,并进行自己的备份,以防我们在修理时弄坏某些东西。 这种情况经常发生。

然后,我们在阻止失血的过程中将尽可能多地解决紧急问题,特别是更改配置(如果可能的话,使用我们自己的配置),关闭公共端口,修复Java堆分配,调整Apache工人数等,以及设置基本的日志记录和监控,以便我们可以更好地看到我们看不到的内容。

我们在此阶段的第一个工具集包括我们的操作系统,服务和云审核/治理工具,以及我们的深度配置管理数据库(CMDB)系统,这些工具可以使我们详细了解关键问题,反模式,过载,不良配置,打开端口,配置错误的堆和工作器,错误的SSL等。

我们还使用深度监控来查看实际情况。 这包括监视站点可靠性工程(SRE) 金色信号,以查看系统各个级别(从磁盘到数据库,应用程序服务器,Web服务器以及应用程序中的每个子服务)的速率,错误,延迟和饱和度。

此防出血阶段通常需要一周到一个月的时间。

阶段2:找出所有尸体

一旦病人得救了或基本稳定下来,就该去了解我们所拥有的了,尤其是在所有中长期问题都存在的地方。 此阶段的目标是发现并记录文档,同时修复更多问题,并逐步建立一个真正的计划,以在接下来的几周内尽可能安全地进行大修。

此阶段的关键问题之一是弄清楚所有部分之间的关​​系。 即使没有微服务,这也可能是一个真正的挑战,尤其是在具有许多服务在单个主机上运行,​​各种类型的数据库在整个系统中浮动,以及缓存,负载平衡器,代理,NFS等更多环境的旧的和大型系统中。这个地方,经常与其他事物加倍。

所有这些都使系统变得非常脆弱,而令人遗憾的是,我们在试图弄清楚它们或进行细微调整以破坏看似完全无关的服务的同时打破了许多系统。

我们这里的工具集包括CMDB,服务和链接发现,自动图表和日志分析系统,所有这些都使我们能够深入了解正在发生的事情。 我们还将(尽可能)使用应用程序性能管理(APM)工具来查看代码瓶颈的位置,尤其是当我们在数据库中发现问题时。

身体发现阶段通常需要几个月。

阶段3:在比赛中重建赛车

最后,我们必须重建系统。 这通常意味着在最新的操作系统和软件版本上,以最佳实践配置替换每个组件,使其本身具有较新的版本,并且正确配置了所有安全,受监控和备份的配置。 当然,必须在系统运行时停机或停机时间很少。 理想情况下,大多数情况下是白天,因为我们从未对凌晨3点更新数十个系统感到兴奋,更不用说半睡半醒时发生的错误了。

我们通过仔细的排序来构建总体规划,以便我们可以逐块更改。 理想情况下,我们会尽早添加高可用性,以便我们可以随时使部分系统脱机。 每一点都需要与包括开发人员,运营,支持,服务台乃至市场营销在内的众多利益相关者进行非常仔细的协调(以避免促销期)。

我们的重建工具集包括大量精心的手动工作,以及我们可以应用的尽可能多的自动化工具,包括云自动化(CloudFormation,Terraform等),配置工具(大部分为Ansible)等。 所有内容都使用我们针对各种服务的最佳实践配置与我们的服务器设计和自动构建系统联系在一起。

这通常需要几个月到一年的时间,因为它通常依赖于繁忙的第三方,例如应用程序开发,网络和安全团队以及财务批准。

阶段4:长期管理

在我们救了病人,修复了所有问题并为将来重建它之后,我们必须保持系统的正常运行,24x7全天候管理。 这是一个全新的阶段,我们重建系统的辛勤工作已获得回报,理想情况下,此后一切都会顺利进行。 实际上,随着时间的流逝,大型动态系统会遇到很多问题,但是我们在更新体系结构,版本,配置,监视等方面的工作将在未来几年有所回报。


Steve Mushero将于10月29日至31日在美国田纳西州纳什维尔举行的LISA18上展示接管和管理大型凌乱系统 ”。

翻译自: https://opensource.com/article/18/10/phase-approach-IT-systems

c# 接管系统鼠标

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值