[CIO]IT灾难前的8个预警信号

[CIO]IT灾难前的8个预警信号

系统反复崩溃,影子IT持续增长,思想逐步固化,忽略了即将发生IT灾难早期预警信号的时候就注定会发生灾难。

(作者:Dan Tynan 来源:CIO.com 译:nonono7731)

[译者按:在即将翻译完成之际,在头条上看到了类似的译文【哭泣】,但还是决定发出来。此文有些内容可能与我们的国情不符,如用户意见、并购事件、团队士气、FBI上门等,但是还是有很多可借鉴之处,如对代码发布的管理、对同一问题的解决、对告警事件的处理。事实上,这些内容更多是ITIL里已经有了明确规范的流程,即,发布管理流程、问题处理流程和事件管理流程,对这些流程的应用会极大改变IT服务管理的水平,也会更好的处理IT灾难前的预警信号!]

有些事情在IT部门里极为糟糕,如果不能很好的处理,就可能在你手上发生大灾难。有些事儿现在看起来还不错,但预警信号已经存在,只是你还没有注意到而已。

网络偶尔出点小故障,简单的问题却需要很长时间来修复,有些事情反复出问题。每一次重大代码发版都伴随着大量的bug修复。影子IT已经象像常业务一样了,而你是最后一个知道这种业务战略变化的人!

等到团队离职,web站点离线,用户跑到云上自建数据中心,而客户数据已被黑客拿到暗网上叫卖时,一切都太迟了。

下面是一些潜在灾难的预警信号以及如何避免它。但当你已经已经陷入危机的时候,那就忘了它们吧!

1.用户不再抱怨

“也许你认为较少的用户报怨是件好事,但也许这是错误的”,Alvaka网络公司的CEO Oli Thordarson认为,这家公司为中型企业提供7ⅹ24小时的IT服务。“但更少的抱怨经常意味着用户已经放弃解决问题的希望了,这可能导致各种各样的糟糕后果。下降的帮助请求并不总是意味着管理者干的好,相反,很多时候这种情况表明用户群体已经对IT团队失去了信心。接蹱而来的就会是影子IT的增长,这是用户支持机制的代替品,接下也可能会有员工解雇或洗牌。“

Thordarson认为,“当用户报怨的时候,那表明他们希望IT部门能够响应他们的需求。任何组织在任何时候都会有一定数量的公开的问题通知单,处理的方法就是为这些报怨建立一个基线,并密切关注其数量是否明显变化。报怨数的上升也有可能是由于重大升级或其他重大变化,赞成数降低也可能来源于处理流程的显著提升或一些长期存的问题被解决。但是,如果你不能很好的回答为什么上升或和,那可意味着大问题“。

2.食堂里的陌生人

如果在食堂吃工作餐的时候遇到很多你不认识的人时,很有可能是你的公司收购了其他公司并且没有告诉你。(这点并不适合中国,我们的小道消息总是满天飞:))收购对企业可能是好事,也可能不是。无论好坏,你的团队都有可能要把目前的战略项目放一边,并花时间整合新并购公司的系统和数据。这总会影响到你的创新能力。

当美国房地产搜索引擎Trulia公司的工程副总裁DeepVarma 2000年在Yahoo工作时候就见过这一幕。时间大概是在搜索门户收购广告技术公司Overture时,随之而来的还有一大群小公司。

“Yahoo买了很多大大小小的公司,所以我们大部分时间都花了整合上,而不是放在想办法提升搜索关键字的相关性和质量上来”。Deep Varma说,“我在那里的时候,我的团队经常惊叹:‘天呐,我在整合上实在是花了太多时间‘,这确实大大延缓了创新的速度”。

就算有如此大量失控事件,你也不能直接告诉CEO别并购公司了。但你可以整合那些商界领袖真正需要的内容,如,在保持产品、路线图和业务单元独立的情况下开展数据分析。

“在过去的几年里,Zillow【房地产评估服务的网站】集团(Trulia【美国房地产搜索引擎】的母公司)做了很多并购,但我们的战略通常是建立一个能够保持他们自己战略方向的品牌组合“。

虽然Varma仍然忠于他的前雇主Yahoo,但他认为,公司缺少对这些并购如果适应其整体业务发展的战略思考,并停止了创新发展,最终导致了溃败。

3.持续解决同一个问题

让单位的IT团队屈服基本会注定失败,但一些细微的、不可阻挡的技术债务的积累最终会成为“压倒骆驼的最后一稻草”。

一个通知和协作平台xMatters的运营总监Adam serediuk认为。“后半夜的隐蔽工程,偶然的意外断电,简单的问题处理的越来越慢—‘影响生产率的壁垒效应’仍然在在单位内部频繁发生“。

有些低效事件天然固化于企业之中,并且多数流程更注重效果而不是效率。但是,当某个系统持续反复出问题,并且没人采取一些前瞻性的措施防止其发生的时候,这可能已经挖了一个难以爬出的“大坑”。结果通常是雇员的倦怠和高层的内耗。

Serediuk认为,“这是一个离职的时机,就好象花了整整一周的时候来处理已经遇到过10几次的相同问题时,LinkedIn上又收到了招募消息。就好象说,’你知道嘛,我已经受够了这些‘,然后他们就会离职”。

如果可能的话,最好的解决方案是抛弃这些有问题的系统另起炉灶。

“:’汲取经验重建系统并优化它‘当直面这个正确的方法时,很容易掉到沉没成本误区的陷井里,技术发展太快,不能背负过去的错误前行“。

4.代码发布量过大

LinkedIn网站可用性团队的工程副总裁Bruno Connelly认为,“一次性发布大量代码的时候,出问题的机率就会大增,而且会冒着毁掉整个系统的风险。当我们试图一次性解决所有问题时,作了大量细微变更的海量代码处理起来很复杂。如果有代码出问题,就会触发其他代码出问题,会产生更更多的系统故障。高频发布变动较小的代码是更优的选择。”

“我们已经把系统优化到每当需要的时候就可以发布代码,我们在努力高频发布少量代码。在保持相同性能特征和向下兼容的情况下,这种做法确实提升了我们的工作表现”。

社交网络的专家还需要通过模拟非预期系统故障以确保准备就绪。去年11月,LinkedIn上线了LinkedOut框架,可以让可信工程师人工触发应用中的故障,从而确认服务状态“。

曾经有一次,LinkedIn还强制停掉其主数据中心,用以确保有足够的容量和自动化处理能力应对真实的数据中心灾难。

Connelly补充道:“如果对处理备援失效的情况没有绝对信心,这就是另一个预警信号。必须通过经常性的演练学会适应故障”。

5.团队士气问题

当你让你的团队迎接一个困难的挑战或跟随一个新战略时,你听到的全是叽叽歪歪的抱怨声,这说明确你已经遇到了个严重的士气问题。

Thordarson认为:“如果管理者和使用都不断的找CIO提出一些激动人心的建议或解决方案,说明管理人员在领导力和管理上做的很好。但是,当使用者不再提出新的建议时,他们要么是对CIO失去了信心,要么就是在自建影子IT。“

这可能由于管理者没有很好的鼓励并创建合作和尝试的文化,缺少成熟度和自我。

“我曾经见过一个公司,整个IT团队藐视任何团队以外的人。这种情况下,CIO需要认真思考一下,你的雇主只是为你提供了一个经营生意和攻克新技术的平台,对公司而言你并非不可或缺,也许是时候换一个新领导了“。

Serediuk说,雇员不愿意提供新想法,只是因为他们已经被磨的没脾气了。

“当团队出能量耗尽的时候,CIO会面临大量不情愿的变革。即使这些变化能够改善这一切,他们也不会相信。他们会选择假定失败,因为他们已经经历了太多失败。迄今为止,所有的变某都会变的更糟糕,为什么这次会例外?CIO需要看到这些并做出正确的响应!”

6.减少的高层会议

在IT管理中,没有消息一定不是好消息。如果不再向你提供重要的管理决策或参与高管层的战略会议,那你可是遇到麻烦了。

“不再被邀请去参加高层管理人员的会议是一个关键信号,那意思是你不再与公司有关。很显然,他们不相信你,也不认为人能为公司做出贡献。”Thordarson说,“为了得到管理层的尊重,会有一些根据业务成果而构陷的关于技术问题的指责,但技术管理者却毫无意识”。

“你不能只是简单的说,‘因为网络太慢所以需要新路由器,或者我们不得不每天晚上重建数据库,所以需要新的软件’。但如果你告诉他们每晚重建数据库每年会花费2百万美元,你知道他们会怎么响应的”。

一个AI驱动的分析公司首席数据分析员Doug Bordonaro认为,“很多情况下,CIO们迷恋信息化基础设施,而忘记了更重要的业务场景。传统上,CIO们关注安全、合规、数据管理和其他基础任务,但在今天的数字经济里已经不够了。如果你没有花费同等精力在货币数据化、业务线上化,并将数据应用的福音传遍全公司的时候,可能你的CIO生涯就快终结了!”

7.告警疲劳问题

IT管理者知道必须持续实时监控重要业务系统,但如果有太多告警的情况下,跟没有监控差不多一样糟糕。

Serediuk认为,“公司可能有100或5000个服务器,而且监控仪表盘上总有30个打开的告警,虽然这些告警可能是通知或已知问题,但始终有30个红叉叉在盯着你。那么,当有一个重要的告警出现时,你怎么将其从这30个告警中将挑出来呢?”

一个云监控平台公司SignalFx的解决方案工程师的负责人John Bruce认为告警疲劳有两个潜在的严重问题:一个是IT管理者终归会从噪音告警中忽略那些潜在的严重的告警事件;另一个是精疲力竭和持续损耗。

他回忆起访问过一个潜在的SingalFx客户,他们仍然在使用传统工具去监控云上的动态主机平台。

“他们要监控的系统有太多的噪音告警,以致于他们运行人员彻底‘蒙圈’”,Bruce说,“当你每天早上都有3-4页的错误告警向你涌来的时候,感觉肯定不太好。”

Serediuk认为,“管理者需要检查积压的问题并按优先级排排队,对能够影响最终用户的问题给最大优先级,这些问题不处理好,转而会影响到他们自己。“

Bruce认为,问题的关键在于先发制人,要在故障开始影响用户之前就使用告警信号进行度量。需要一些早期预警指标来告诉你,“好吧,服务器和客户服务水平开始下降,我们必须冲上去救火了”,而不是,“好吧,这个服务看起来快要降级了,我该怎么办才能阻止它发生?”

8.FBI正在登门拜访

BugCrowd的网络安全专家和顾问Paul Moreno认为,数据泄漏和安全漏洞是每一个CIO和CISO们关心的事情,但这些问题并不那么容易发现。很多大的安全事故之前通常有很多小的信号。

例如,无法解决的系统性能问题或高出平常水平的数据外出流量可能表明攻击者正在试图从你的公司里渗透数据。在一个新地点突然增多的登录表示有人正在尝试窃取客户数据。不寻常的API和管理终端请求可能意味着有人尝试“黑“你的网络。

“如果以上这些内容你都没有监控到,那这会是一个很好的被‘黑’的入口。对安全防护套件而言,为其内部管理终端提供高灵敏度监控甚至自动触发机制都是极为关键的,例如通过捕捉方式(lock out)。“Moreno表示。

这也有助于预防性操作,执行双因素认证能够防止小偷窃取密码。Bug赏金计划也有助于在坏蛋动手之前识别系统脆弱性,特别是在企业发布了责任范围和披露准则的情况下。此外,安全智能供应商还能够扫描“暗网“,当找到对黑客有用的的攻击指示信号会提示你。”

但什么无疑是最糟糕的信号?

Moreno说,“FBI探员或安全厂商在检查近期数据访问并在你数据里进行匹配,这通常表明数据泄漏已经发生”。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。 经导师精心指导并认可、获 98 分的毕业设计项目!【项目资源】:微信小程序。【项目说明】:聚焦计算机相关专业毕设及实战操练,可作课程设计与期末大作业,含全部源码,能直用于毕设,经严格调试,运行有保障!【项目服务】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值