光缆切断,AWS 中国大面积瘫痪;波音承认部分 737 系列机翼零件不合标

(给技术最前线加星标,每天看技术热点)

转自:开源中国、solidot、cnBeta、腾讯科技、快科技等

【技术资讯】

0、因光缆被切出故障,AWS 中国近 12 小时大面积瘫痪

从凌晨2点到下午1点48分,亚马逊旗下云服务商AWS中国区熬过了漫长的11小时48分。作为AWS中国区的员工,方远(化名)一早被电话吵醒。一家创业公司的客户过来抱怨自家APP连不上服务器了。事情比方远想象的严重。挂完电话,方远才发现公司的大小微信群已经炸了锅。

按照AWS中国的官方声明,因为隔夜道路施工中有几处光缆被切断,导致可用区无法链接Internet,使得AWS中国业务大规模出现故障。

640?wx_fmt=png

包括方远在内的员工们也很懵,几处光缆被切断怎么会影响整个北京区域的这么多服务?

但这一事故的影响已经在不断发酵,包括VIPKID、流利说、三星应用商店等多个用户都均受到不同程度的影响。亚马逊中国官网(www.amazon.cn)的页面也一度崩溃。

因为正逢6·18大促,流利说的助教张丰(化名)正忙着推广自家的促销信息。这边张丰刚向学员介绍完自家的课程计划,就在微信上被学员告知流利说APP的定制课程已经根本打不开。很快,张丰接到公司紧急通知,是因为公司的云计算服务商AWS出现故障。

接下来,张丰的工作重点不得不变成安抚各路学员。直到下午1点多,张丰终于开始群发消息,通知学员们APP“服务”已经逐步恢复中。

类似的尴尬在VIPKID的各个家长群同时上演。

有客户在微信上评论道:“这是我从业以来经历最长的一次故障修复时间,AWS这次事故处理的时间效率太低了,我表示很失望。”

为了保障服务不中断、数据不丢失,一般业务系统、数据都有多个备份。而在云计算中,为了保障数据中心内业务系统的可用性,数据中心基础设施也会采取类似的冗余备份,提高系统可用性。

有业内人士认为,此次AWS光缆被切断导致近12小时大面积服务瘫痪是因为没有做好网络冗余设计。

网络冗余设计主要通过重复设置网络链路和网络设备冗余措施。网络链路冗余是指为确保业务正常运转,除配置主线路外,同时做好第二种、第三种线路的部署。

主备线路隔的位置比较远,因此,一旦主线路出现故障,还有其他线路保证网络的可用性。例如,接入互联网时,同时采用不同电信运营商线路,相互备份且互不影响,但这样一来,成本也会增大。

据悉,AWS北京区域使用的是光环新网的数据中心,记者多次致电光环新网客服电话,均无法接通。据光环新网官网显示,该公司在北京拥有酒仙桥、太和桥、光环新谷、东直门、房山和亦庄6个数据中心,每个都拥有高达100G的BGP总出口带宽,多运营商通信链路。

“本来一个机房,各家运营商链路应该有自己的连通方式。但是也有可能机房在施工时先汇总各家运营商到一条主干线,到某一节点之后再分开。但冗余是有成本的,不是所有场景所有环节都冗余的。对于云厂商来说,网络线路都是租运营商的,都是钱啊。”上述业内人士指出。

因为光缆被切断导致服务瘫痪的并不少见。2015年,因为当地市政建设施工方挖断了光缆,支付宝PC网页和手机客户端都出现无法登录、网络异常等现象。后来,支付宝改成了冗余设计。

2018年9月云栖大会上,蚂蚁金服发布了“三地五中心金融级高可用方案”,并现场演示了“剪网线”,经过26秒容灾切换完成,恢复业务。

而在2018年7月,因腾讯云广州一区的主备两条运营商网络链路同时中断,腾讯云广州区域部分用户出现资源访问失败、控制台登录异常等情况。

2019 年3 月,腾讯旗下多项服务出现服务器未响应问题。随后,腾讯云发布公告称,因上海南汇网络光纤因施工被意外挖断,导致该区不少互联网公司的业务受到不同程度的影响。

1、谷歌多项服务全球大规模宕机:涵盖 YouTube、Gmail 等

周日,谷歌在全球范围内遭遇了大规模中断,包括Gmail、YouTube和Google Drive在内基于谷歌云架构服务的诸多谷歌服务均受到影响。本次宕机于北京时间6月3日凌晨2点58分开始,用户访问谷歌服务出现各种错误提醒,并且阻止用户访问电子邮件、上传YouTube视频等等。

640?wx_fmt=png

根据谷歌官方状态页面显示,包括Gmail, Calendar, Drive, Docs, Sheets, Slides, Hangouts, Meet, Chat和Voice在内的谷歌服务均无法使用。那些依赖于谷歌云架构的第三方服务同时也受到影响,目前谷歌官方并没有完全恢复的预估时间,也没有公布关于本次宕机事件的根本原因。

苹果的iCloud服务也受到轻微影响,苹果报告称有不到1%的用户出现了响应时间低于正常值的情况。AppleInsider也进行了测试,但是并没有出现任何中断或者卡顿的情况。

640?wx_fmt=jpeg

凌晨4点45分:谷歌报告称,由于网络比较拥挤“用户可能会看到性能下降或者间歇性错误”。谷歌表示已经确认了造成拥堵的根本原因,预计很快会恢复正常。

凌晨6点:在简讯中,谷歌承认这些问题, 并表示工程团队已经完成缓解工作的第一阶段。

2、微软 Azure 云服务被用于托管恶意软件,可控制多达 90 台电脑

AppRiver安全公司发现,从网络钓鱼模板到恶意软件以及命令和控制服务,Azure云服务依然存在安全问题,研究发现其根源问题存在于微软的Azure基础设施中。BleepingComputer称,在早期报道中,5月份陆续出现了两起与Azure相关的恶意软件攻击事件:

1>自5月10日以来,Azure App Services平台上托管的近200个网站被用于部署廉价的虚拟主机托管以此维持网络诈骗活动;

2>5月28日,一种新形式的钓鱼活动出现在网络中,攻击者会将钓鱼内容伪装成Office 365警告邮件,声称用户已触发中级威胁警报,并使用虚假登陆界面将用户信息发送到指定网站。

安全研究人员MalwareHunterTeam和JayTHL最新发现表明,上述事件并非独立的攻击行为,在经过样本分析后,恶意软件以及稍后上传的其他样本仍然存在于微软的Azure基础设施中。

“很明显,Azure目前还没有检测到驻留在微软服务器上的恶意软件。”

640?wx_fmt=png

AppRiver的David Pickett 称,在研究攻击样本时,其中一个示例'searchfile.exe'在4月26日被VirusTotal扫描服务编入索引,当用户尝试在计算机上下载恶意文件时,Windows Defender会检测到它并阻止恶意文件的进一步动作。

“一旦运行,这个恶意代理每2分钟生成一次XML SOAP请求,以检入并从恶意行为者Azure命令和控制站点接收命令:systemservicex [。] azurewebsites [。] net / data [。] asmx。”

研究员JayTHL称,被抓取的样本似乎是一个简单的代理程序,它运行从命令和控制服务器接收的任何命令。如果攻击者的ID号按顺序生成,确定可以控制多达90台电脑。

640?wx_fmt=png

据悉,Microsoft Azure不是第一个被滥用存储恶意信息的平台,Google云端硬盘、Dropbox和亚马逊的网络服务也都出现类似情况。

通常情况下,网络犯罪分子会破坏合法网站并使用它们来托管恶意内容,在风险和成本都很小的情况下,攻击者很有可以就此展开新一轮行动。

【业界资讯】

0、波音公司承认部分 737 系列飞机机翼零件不合标准

当地时间6月2日,波音公司表示,包括波音737 MAX机型在内的部分波音737系列飞机机翼的某些零部件可能不符合生产标准,需要更换。波音公司已在美国联邦航空管理局的帮助下通知有关航空公司,建议其检查737系列飞机有关零部件,如发现问题,应更换零部件后才能将飞机重新投入使用。

美国联邦航空管理局(Federal Aviation Administration,FAA)周日(6月2日)发表声明,部分波音737 MAX及新世代(737 Next Generation,737NG)飞机的零件可能不正当生产,因此需要更换新零件。

该声明指,波音旗下一间承办商生产的前缘缝翼(Leading Edge Slat)的质量有问题,指最多148件零件受到影响,全球有179架MAX及133架NG飞机上。

1、亚马逊、谷歌一个也跑不了,美两大反垄断机构已划分审查职责

知情人士称,美国两大反垄断机构在审查谷歌、亚马逊问题上已划分好了职责:亚马逊公司交由美国联邦贸易委员会(FTC)审查,谷歌公司则由美国司法部审查。根据FTC和美司法部达成的新协议,亚马逊可能将面临FTC愈加严格的反垄断审查。同时,美司法部在审查谷歌上获得的更大权力,将为该机构对谷歌发起潜在调查铺平道路。

640?wx_fmt=jpeg

目前还不清楚FTC对亚马逊的审查计划、美司法部对谷歌的审查意向。但是,两家反垄断机构达成这种安排通常意味着他们将展开更为认真的反垄断审查。许多美国国会议员已经担心科技公司变得过于强大。

就在昨天,有报道称美司法部准备对谷歌发起调查,以查明谷歌在运营其在线业务时是否违反了反垄断法。

长期以来,美国会议员一直担心亚马逊在网络零售领域的主导地位以及它在多个商业领域不断扩大势力范围会让它积攒太大力量。亚马逊控制着自家平台上的第三方卖家,其低价策略帮助公司吸引了用户支出,但是却以牺牲实体店对手为代价。

2、被云服务商误封账户的初创公司

近日,一则主题为 “DigitalOcean 是如何杀死了我们公司”的帖子在社交媒体引发轩然大波。发帖人 Nicolas Beauvais‏ 所在的 Raisup 是一家仅有两人的初创 AI 公司。而他所控诉的 DigitalOcean 是一家大型云服务提供商。

640?wx_fmt=png

Nicolas 连续发布多条帖子表明了事情经过。他的公司每 2-3 个月会定期执行一个 python 脚本以更快地处理数据,但就在两天前,DigitalOcean 认定该脚本是恶意的,并封锁了他们的账户。这意味着他们的基础设施——用于其 Web 应用程序、worker 节点、缓存和数据库的五个 droplet(简单可扩展的虚拟机)均无法再使用。

向 DigitalOcean 发送多封电子邮件和 Twitter 私信后,Raisup 的帐户被解封。Nicolas 表示,因为所有 droplet 被关闭,用于跟踪进展的 Redits 存储内容也被擦除,他们不得不重新启动数据管道。但好景不长,仅 4 个小时之后,该公司账户被再次锁定,“很可能是通过同一个自动脚本封的”。

640?wx_fmt=png

Nicolas 在接下来的 30 个小时内又向云服务商的支持人员发送了 4 条信息,最后只收到一条简短的自动回复,DigitalOcean 拒绝了他们重新激活账户的请求。

“我们失去了一切,服务器,还有一整年的数据库备份,全都没了。现在我们必须向客户解释为什么无法恢复他们的账户”。

“我是这间两人公司唯一的开发者,今天是我休假第一天,却听到这样的消息,真是令人受伤,好无能为力……” Nicolas 开始在 Twitter 哭诉。

接下来的事态发展却远超他的预期。这一事件在 Twitter 和 Hacker News 等社交平台引发热烈讨论,不少人前来分享自己的类似遭遇,或是给出建议,也有不少人甚至表示考虑不再选择 DO 提供的服务,并推荐了其他的云供应商。

640?wx_fmt=png

大概是感受到了公关危机,Nicolas 的原帖发布小一时后,DigitalOcean 的创始人 Moisey Uretsky‏ 就在 Twitter 回复:“该账户应当被重新激活,处理方式还需要深入研究一下。不应该花费这么长时间来恢复账户,更不应该进行二次封锁”。

随后,DigitalOcean 官方账号发表声明,先是表示了歉意,称账户已恢复,接着说明事情正在调查中,承诺会公布调查结果,力求将服务透明化。

觉得这些资讯有帮助?请转发给更多人

关注 技术最前线 加星标看 IT 要闻

640?wx_fmt=png

最新业界资讯,我在看❤️

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值