血亏 1.5 亿元!微盟耗时 145 个小时弥补删库

作者 | 马超

责编 | 胡巍巍

出品 | CSDN(ID:CSDNnews)

3月1日晚间,微盟发布公告称,截止到3月1日晚8点,在腾讯云团队协助下,数据已经全面找回。

微盟表示,由于此次数据量规模非常大,为了保证数据一致性和线上体验,将于3月2日凌晨2点进行系统上线演练,将于3月3日上午9点数据恢复正式上线。

针对事故给商家造成的影响,微盟表示,管理层深感自责和愧疚,准备了1.5亿元人民币赔付拨备金,其中公司承担1亿元,管理层承担5000万元。

还不知道事情经过的小伙伴,可以戳下图。

事情经过,图源微盟官方公众号

从事故经过中可以看到从2月23日删库中断事件,到3月1日的数据全面找回,再到3月3日的数据恢复整个事件持续了一周多的时间。

这对于微盟这样体量的电商来说损失无疑是巨大的,股市市值的蒸发是一方面。更重要的是科技公司从本质上是经营数据的公司,而数据丢失事件与银行金库被盗事件从某种程度来说是同样性质的事件,都会对当事公司的声誉造成极大的影响。

做为一名多年战斗在银行业的IT老兵,笔者就以这个事件为切入点,来和大家聊聊大数据时代,灾备建设与数据安全方面的新趋势与新动向,提一些建设性意见。

数据治理之伤

其实数据安全的保护必须要以数据治理为前提,我们很少听说微信、支付宝宕机,这背后不是靠高可用性来保证,而是靠整个服务体系的治理水平保证的。

我们使用分布式架构对IOE进行替代,不是利用WPS替代Office的过程,而是根据数据的特点,找到能够适应大数据时代的方法论。按照笔者的观察,目前从治理角度,可以将数据分为以下三种类型:

应用数据

也就是交易类应用所产生的数据。为了满足业务需要构建业务IT系统,随着IT业务系统的不断运行,大量应用数据就产生了,这些数据经过ETL加工进入数据仓库,进行再处理,供业务应用。这些数据都是单一的关系型数据,数据量级是GB的。

用户行为数据

随着互联网和电商的快速发展,大量人的操作行为和使用行为产生的数据,像谷歌、脸书等大数据互联公司,都记录人的形成产生的数据。上网行为,浏览行为,购买行为,评论行为,刷微博,做抖音等都可以产生大量数据。这些数据不再是单一的结构化数据,出现了大量文档、音频和视频数据,数据量级是TB级的。

硬件日志数据

进入万物互联的时代之后,大量机器传感器和IoT设备都会产生大量数据。这些设备7*24小时产生数据,数据格式也是多种多样,有的是日志数据,有的是时序数据,有的是网格数据等等,数据量级是PB的。

从数据备份角度上讲,上述数据的备份需求是不同的,如果混到一起那么快速恢复业务根本无从谈起。

而从数据使用的角度上讲,随着海量的行为及日志类数据的出现,数据中心的架构将发生变化,整合TP与AP的HTAP时代既将到来。

比如目前一般银行的系统都是以Oracle数据库来进行交易操作,完成了整个流程性应用的内容,并产生应用数据数据,交易结束了,数据的生命周期也结束了。

要想把数据价值做二次表达,要每天做ETL,跑批作业,存到数据仓库中,然后在数据仓库中建模、挖掘、数据集市、ODS,一层一层地构建起数据仓库报表。

如果还回答不出更细节、隐含的问题,比如非线性问题,还要把数据复制到SAS中做机器学习,再做统计的指标体系,去做进一步的挖掘。

数据要在这里搬动三次,复制三份冗余,还要管理数据一致性,每天数据中心运维的大量工作在做数据搬家。

现在,数据中心也开始要做一个融合性的计算框架。比如,现在AI要做Online训练,淘宝推荐引擎,滴滴打车的路径动态规划都在做即时数据,数据闭环是数据基础设施的一个很大的要求。BI和AI操作都要Online化,也就是AP操作要变成TP场景。

可以说上述三类数据在流转的过程中,相互之间是有比对关系的,如果数据治理的水平够高,理清了各类数据彼此之间的一致性比对关系,那么即使出现了删库的操作也不会造成如此长时间的中断,不过从笔者目前掌握的情况来看,数据治理方面的工作并没有引起业界足够的重视。

灾备建设之伤

在讲灾备体系之前,我们先来明确评价业务连续性的两个重要指标:

RTO(Recovery Time Objective)

RTO是指灾难发生后,从IT系统崩溃导致业务停顿开始,到IT系统完全恢复,业务恢复运营为止的这段时间长度。RTO用于衡量业务从停顿到恢复的所需时间。

RPO(Recovery Point Objective)

IT系统崩溃后,可以恢复到某个历史时间点,从历史时间点到灾难发生的时间点的这段时间长度就称为RPO。RPO用于衡量业务恢复所允许丢失的数据量。

简单来讲RTO就是灾难发生后业务中断的时间,RPO就是灾难发生后数据丢失的数量。比如这次微盟的删库事件业务历时七八天完全恢复,而数据全部找回,那么其RTO就是七八天,RPO就是0。

一般来说目前比较流行的灾备体系是至少建设三个数据中心,其中:

  • 主中心:正常情况下全面提供业务服务。

  • 同城中心:一般使用同步复制的方式来向同城灾备中心传输数据,保证同城中心数据复本为最新,随时可以接管业务,以保证RTO的指标。但是同城中心无法应对此类删库事件。

  • 异地中心:一般使用延时异步复制(延时时间一般为30分钟左右)的方式向异地灾备中心传输数据,其中同步复制的好处是一旦主中心被人工破坏,那么不会立刻涉及异地中心以保证RPO的指标。

一句话总结灾备体系的最佳实践就是两地三中心;同城保证业务连续性,优先负责用户体验;异地保证数据连续性,确保企业生存底线。而针对行为及日志等重要性等级不高的数据,一般采用异地磁带备份的方式。具体方式如下:

不过从目前情况看不少企业尤其是创业型企业,都没有百年老店的观念,因此在异地中心的建设上投入还不够,不过这样的模式缺点也很明显,一旦发生这种删库事件就影响就是致命的。

全面上云,势在必行

之前很多文章,分析了微盟的管理员权限过大以及涉事人员的法律负责问题,这些固然是造成此次事件的直接原因,但是笔者认为真正优秀的体系就是即使发生了恶性的操作事件也可以将风险降到最低。因此从这个角度来说,有以下几点建议:

尽快进行HTAP转型

目前的大数据时代的根本逻辑在于TP与AP的融合,而我们在上文也分析了数据治理完成后,数据最佳的使用实践就是HTAP转型。

全面上云

据称本次事件涉及微盟的核心系统其实还并没有完全上云,这就极大提升了操作风险出现的可能性。而据笔者所了解到的情况,腾讯云本身提供了相对比较完善的备份恢复功能,用户直接使用既可。

重视异地中心的建设

由于异地中心采用的是延时复制技术,在出现数据恶意损坏时是可以保命的。因此类似于微盟这样已经形成规模的企业,一定要按照标准建设异地数据中心,这样才能保证企业在极端情况下的生存。

在全民抗疫的特殊时期下,在人员复杂、流动量大地方的出入口处都设置了无接触式无感红外人体测温系统。

在这次疫情防控中,无感人体测温系统发挥了怎样的作用?高精准的无感人体测温系统的核心技术武器是什么?对于开发者们来说,大家应该了解哪些技术?

今晚7点《多场景疫情防控:解读云边端联动下的全栈 AI 技术应用》

热 文 推 荐

做开发依然很穷?试试做好这 7 件事!

美国AI公司30亿人脸数据被黑,遭科技巨头联合“封杀”

“华为搜索”正海外内测;苹果5亿美元和解“降速门”;Firefox隐藏HTTPS | 极客头条

AWS还是Firebase?在移动应用后端应该使用哪个?

基于区块链技术的数据共享赋能AI驱动网络

端侧智能存算一体芯片的需求、现状与挑战

你点的每个“在看”,我都认真当成了喜欢

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Quartz是OpenSymphony开源组织在Job scheduling领域又一个开源项目,它可以与J2EE与J2SE应用程序相结合也可以单独使用。Quartz可以用来创建简单或为运行十个,百个,甚至是好几万个Jobs这样复杂的程序。Jobs可以做成标准的Java组件或 EJBs。 Quartz的优势: 1、Quartz是一个任务调度框架(库),它几乎可以集成到任何应用系统中。 2、Quartz是非常灵活的,它让您能够以最“自然”的方式来编写您的项目的代码,实现您所期望的行为 3、Quartz是非常轻量级的,只需要非常少的配置 —— 它实际上可以被跳出框架来使用,如果你的需求是一些相对基本的简单的需求的话。 4、Quartz具有容错机制,并且可以在重启服务的时候持久化(”记忆”)你的定时任务,你的任务也不会丢失。 5、可以通过Quartz,封装成自己的分布式任务调度,实现强大的功能,成为自己的产品。6、有很多的互联网公司也都在使用Quartz。比如美团 Spring是一个很优秀的框架,它无缝的集成了Quartz,简单方便的让企业级应用更好的使用Quartz进行任务的调度。   课程说明:在我们的日常开发中,各种大型系统的开发少不了任务调度,简单的单机任务调度已经满足不了我们的系统需求,复杂的任务会让程序猿头疼, 所以急需一套专门的框架帮助我们去管理定时任务,并且可以在多台机器去执行我们的任务,还要可以管理我们的分布式定时任务。本课程从Quartz框架讲起,由浅到深,从使用到结构分析,再到源码分析,深入解析Quartz、Spring+Quartz,并且会讲解相关原理, 让大家充分的理解这个框架和框架的设计思想。由于互联网的复杂性,为了满足我们特定的需求,需要对Spring+Quartz进行二次开发,整个二次开发过程都会进行讲解。Spring被用在了越来越多的项目中, Quartz也被公认为是比较好用的定时器设置工具,学完这个课程后,不仅仅可以熟练掌握分布式定时任务,还可以深入理解大型框架的设计思想。
[入门数据分析的第一堂课]这是一门为数据分析小白量身打造的课程,你从网络或者公众号收集到很多关于数据分析的知识,但是它们零散不成体系,所以第一堂课首要目标是为你介绍:Ø  什么是数据分析-知其然才知其所以然Ø  为什么要学数据分析-有目标才有动力Ø  数据分析的学习路线-有方向走得更快Ø  数据分析的模型-分析之道,快速形成分析思路Ø  应用案例及场景-分析之术,掌握分析方法[哪些同学适合学习这门课程]想要转行做数据分析师的,零基础亦可工作中需要数据分析技能的,例如运营、产品等对数据分析感兴趣,想要更多了解的[你的收获]n  会为你介绍数据分析的基本情况,为你展现数据分析的全貌。让你清楚知道自己该如何在数据分析地图上行走n  会为你介绍数据分析的分析方法和模型。这部分是讲数据分析的道,只有学会底层逻辑,能够在面对问题时有自己的想法,才能够下一步采取行动n  会为你介绍数据分析的数据处理和常用分析方法。这篇是讲数据分析的术,先有道,后而用术来实现你的想法,得出最终的结论。n  会为你介绍数据分析的应用。学到这里,你对数据分析已经有了初步的认识,并通过一些案例为你展现真实的应用。[专享增值服务]1:一对一答疑         关于课程问题可以通过微信直接询问老师,获得老师的一对一答疑2:转行问题解答         在转行的过程中的相关问题都可以询问老师,可获得一对一咨询机会3:打包资料分享         15本数据分析相关的电子书,一次获得终身学习

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值