云时代的大数据:思考和展望

  

 

范承工:大家下午好,欢迎来到EMCVMware主办的云计算和大数据论坛。
我是范承工,过去三年我在VMware公司负责云中数据管理的战略与研发,与此同时我也负责了一些VMwareEMC合作的项目,非常高兴看到两家公司能够在这个题目上在中国一起举办这样的论坛。
刚才宋总和蔡总对于在云计算时代的大数据趋势以及客户的案例做了很好的介绍。我讲一些更加技术的话题,过去三年大数据的发展从无到有,三年前可能还没有人说这个词,今天已经如火如荼。我进行了一些思索,到底大数据是什么,是一个噱头还是真的有这个趋势呢?接下来我把自己的思考和大家分享一下。
数据库是现在最领先的一个数据管理模式,它可以把数据进行很好的归类,进行非常快速的检索,过去30年我们生活在数据库的时代。数据库的时代利用关系型代数这样一个非常美丽的数学概念,把数据都按两维空间很好的组织起来,进行很快的检索,而且能够进行交易型处理,使得你在这里订一张飞机票不会有另外一个人订同样的飞机票跟你坐同样的位置。正因为关系型数据库的产生,使得现在很多的应用都能够非常顺利的进行开发。在过去的30年里,从最初的群雄争霸,有很多种不同的关系型数据库以及其他的数据管理模式,到现在已经是一个非常稳定的市场。这个市场的领先者,包括大家熟悉的甲骨文公司、IBM公司、微软公司,都有很好的数据库技术满足客户的需要。


数据库大多都是在企业客户自己的数据中心里,在自己的防火墙后面。数据库各种各样,有为交易型的应用提供的交易型数据库,也有为平时的运营服务的,可以每天早晨给你一个图表,看今天的运营状况,在过去10几年里数据仓库有了非常快的发展,可以以比较大的数量进行深层次的技术发掘。在数据库技术底下,其实现在IT业有非常好的开发和应用,为客户提供更高的价值。
看到这些大家可能会问,这个世界不是很美好的吗?起码对于甲骨文、微软和IBM是非常美好的世界,数据是非常有黏性的技术,是一个非常稳固的平台,由于上面转着几百、几千个不同的应用,使得用户很难把数据库换掉,而不换掉上面的应用。因为数据库的数据都在里面,数据的重力是非常强的,如果把数据从一种数据库迁移到另外一种数据库不是很容易的事情。但过去5年这种情况有了一些改变。我注意到有五个比较大的趋势,使一家独大的数据库统一数据管理的状况有了颠覆性变化。
第一是数据本身的改变。
刚才宋总和蔡总都提到,过去的数据大多是人为产生的,它的数据是一条条记录式的,比较容易转化成关系型数据库形式。对它的处理往往不是实时的,可以等待数据产生,而要应用它的时候,往往已经过了一段时间。在这种情况下,关系型数据库是一个很好的数字化。举一个很简单的例子,我在年初去滑雪,然后去租雪橇,去了一家夫妻店,是一个很小的雪橇店,他们还没有电脑,没有数据库,完全是靠纸和笔记录每一笔交易。我看到他们有一盒子的卡片,每一笔交易就是一张卡片。还有另外一个盒子是他所有客户的信息,中间通过客户的信息可以查每个交易的信息。我再一看,这是用纸做的关系型的数据库,而这个夫妻店如果生意好,规模大了,就无法用纸和笔来完成,就必须要做成电脑上的数据库。这样的数据库有几个特点,大家都知道CRUD,需要能够保证有数据的产生,有数据的读和写以及更改,也要保证可以把数据删除,这是过去所谓的记录型的数据。而对这种数据的管理,数据库是一个非常优秀完美的技术。而现在产生数据的源更多了,很多的数据不再是由人产生了,而是由机器产生的。随着物联网的发展,各种各样的探测器,各种各样的RFID,各种各样的手机,各种各样的器件以及很多电脑、服务器会自动产生大量的数据,而这些数据往往是以流的形式产生的。即使是人为的,包括我们刚才提到的社交网络、微博,数据的形式和过去的形式也有些不一样。
我们看到新型的数据往往很少改变过去已经产生的东西,这些数据往往是产生一次,以后就再也不会更改。一个服务器的日志不会再改变昨天的日志,我昨天放上一个微博,也不会再进行改变,往往数据产生一次就不会改变。而这些数据很多时候是不会被删除,即使用户把它删除,在背后的基础架构里面往往也是不删除的。新兴的数据下我们注意到是CRAP的数据模式,是产生、读取、添加和处理。对于这样的数据来说,我们大家熟悉的关系型数据库已经不能很好满足需要。处理大型的CRAP的数据,我们需要新型的数据管理技术和产品来帮助客户解决这个问题。这就是现在为什么包括Hadoop这样的技术这样热门的原因,是因为过去的数据管理方式已经满足不了新型CRAP数据的需求。
第二是云所带来的副作用。
云就在于你的应用不止是在你的防火墙之后。随着软件即服务的产生,我们会生活在一个生活云的时代。对于很多的企业来说,我们很多的应用会是在私有云里面,是在自己的数据中心当中。但是同时我们有越来越多的应用会由公有云进行提供,包括客户管理,包括人事管理,甚至以后包括财务管理,都会通过公有云来提供这样的应用。而这产生一个副作用,就在于数据往往是跟应用在一起的。当你的应用在你的防火墙之外了,它的数据也在防火墙之外。我作为一个软件即服务的提供商,提供给你应用,而数据都会在我这里。我作为一个企业来说,第一次面对这种情况,企业的数据已经不完全由我来掌控,我不可能把所有的数据都放在甲骨文的数据库当中。即使我作为CIO有这样的愿望,也无法达成这个现实。因为到底这个应用采用哪个数据库,已经不是由我这个IT部门说了算了。
在这么一个多地点、多来源的数据时代,怎么样对这些不同的数据方式、不同的数据材料进行统一的分析和处理,从它上面能够得到智能是新一代的挑战。在过去要做一个新的应用,只要连接到已有的数据库上就行了。而现在必须要有一个全球的云数据统一系统,才能够在上面开发出新的应用程序,使它能够提取到你私有云里面的数据,也能够提取到公有云的数据。所以这是另外一个云带来的趋势,使得数据管理模式会有一个比较根本的改变。
第三是云的使用者在进行的改变。
云使用者的改变也是数据的使用者的改变,在中国很多公司里面,最富有的最有实力的500家公司里面,可能都会有比较好的数据仓库系统可以对他的数据进行分析。但是,现在对于数据的需求已经不止是这500家最有实力的公司了,我觉得任何一家公司,任何一个规模的公司,或者任何公司里的任何一个部门,任何一个小组其实都有需要。为了他能够在商业上取胜,为了他能够更好地完成日常工作,都必须从数据当中提取他的智能。而我们现在所熟悉的数据仓库系统,能够为数据提供智能的系统是非常昂贵的系统,需要几百万美元,几千万人民币的投入,需要专业的团队,需要很长的时间才能够得到需要的智能,而并不是所有的公司都能够有这么多的钱、人力和专家来达到这个结果。我们的需求就在于怎么样能够有一个低门槛的系统,使得无论是大公司还是小公司,无论是公司里面大团队还是小团队,都能很容易的从数据当中看到你想看到的信息。我们需要使这个数据的分析系统低门槛,能够实时的产生这些智能,能够更加平民化,提供更多的可视性,这也是一个非常大的趋势。相信在将来的几年里面,我们会发现更多的解决方案,而现在已有的解决方案并不能满足这方面的需要。
随着这三大趋势,我相信会因为它们产生一个新的数据云的时代,从过去数据库一家独大到新的数据云,会产生新的需求,产生更大的数据,更快的数据,分布更广,更多样的数据,同时这些数据能够为千家万户,为所有的用户提供服务。当然,数据库并不会消失,数据库仍旧有它非常重要的作用。在很长的时间里,这两边的技术会是共存的。还有两个非常重要的在业界的趋势,会帮助在更好的管理数据库的同时,能够迎接这个数据云时代的到来,而且使两边能够共同和谐的生存。
第四是大家很熟悉的虚拟化的技术。
使得底层架构更加的灵活,更加的业绩化,使得你很容易有资源池。一方面能够减低管理数据库的开支,能够使更多的资金用于数据云时代。另一方面,可以使得同样一个基础架构,同样一个资源池,可以既满足数据库的需求,也能满足数据云的需求,来降低运营成本。所以产生虚拟化、混合云的基础架构,对于数据库和数据云能够并存,是一个非常关键的技术。

第五是更加重要和根本的,是大家更加熟悉的开源软件的趋势。
大家都知道,数据库是一个非常好的技术,但是它同时也是一个非常成熟的技术,所以开源软件在数据库这边有一个降低成本的好处,任何一个成熟的技术,它都会使得最好的解决方案以及这个开源的解决方案中间的差距会越来越少。大家在用数据库的时候,可能一方面非常有用,另一方面会感到真贵,要维护一个大型的数据库系统需要很多的人力物力,需要给这些厂家很多的钱。但是随着开源这个软件的出现,或者基于开源软件,包括一些关系型的数据库,他们之间的差距离市场领先数据库的差距会越来越小,会给客户更多的选择来部署你的数据库。
更重要的开源效果是对于数据云时代的帮助,数据管理云系统,现在走过一个分久必合到合久必分这么一个转型的时代。在30年前可能是群雄混战,有很多的数据库产生,而在过去的20年、15年逐渐的甲骨文一家做大,成为业界的领袖。但是现在这个时代,我们的皇帝也老了,新一代的技术产生,我们又进入一个群雄混战的时代。现在大家熟悉的大数据技术,包括Hadoop,包括新的为开发者所欢迎的技术已经产生,而这样的技术大多数是以开源技术的形式出现的。以开源技术的形式,就使得作为客户可以非常低门槛的能够应用到这个技术,不需要很多的初始投资,可以尝试这个新的技术到底是否满足自己的需求,鼓励这么一种百花齐放的形式,开源就给这个百花齐放提供了一片土壤,看最后到底哪一朵花最投其所好。
根据这些趋势,传统的数据库就Hold不住所有的应用了,传统的只要给我一个数据库我就搞定了。而现在来说,有几种应用传统数据库搞不定。


第一是海量数据的需求。这些数据基本上是以每年成倍的形式进行发展,而对于大的数据量上面的分析需求往往也更细,而对它的门槛要求也更低,传统的数据库无法满足这种需求。
第二是对于快的需求。很多时候数据得到的同时,就希望有智能的产生,希望有反应,对应用就能够直接产生效果,直接为你的公司产生价值。能够有低延迟,同时在数据流产生的时候就能够有Action的产生。
第三过去的开发者决定着什么样的数据当先,而现在的开发者,包括移动、社交应用的开发者,往往需求是更加多样化,而在这些多样化的需求里面,很多时候关系型数据库并不是最优的解决方案。


正因为这些开发者的需求,使得各种各样的解决方案能够大行其道,包括一些大家非常熟悉的,都在互联网的应用当中,在移动和社交的应用当中有广泛的应用。而VMware公司也有我们的KeyValue的系统,在企业级系统也有一定的客户。随着大量、海量,到实时快速、灵活的需求,同时客户也希望能够以自助型的形式能够得到应用,能够以一个云的模式,让开发者能够自己部署他的数据系统,部署在混合云,部署在虚拟架构之上。
这张幻灯片是在海量、快速、灵活的系统,通过云模式发生,这里面我们EMCVMware提供了什么样的产品,什么样的解决方案?在海量、大数据的处理上,EMCGreenplum,还有统一分析的平台,叫做UAP,既能够处理结构化数据,又能够处理非结构化数据。同时我们还有一个产品,能够把两者很好的结合起来,使得数据的科学家能够很好的应用。而VMware在提供vsphere的基础上,我们最近有一个开源的项目,能够使Hadoop在虚拟的基础架构上,10分钟非常快速的就能进行部署。而没有这个技术的话,往往部署是很多天的任务,我们能够把它从很多天缩减到10分钟,同时还能够提高硬件的利用率,能够满足多租户的需求,有更好的安全隔离,同时也有更好的伸缩性,是一个非常好用的开源技术,能够使企业更容易的开始尝试运用Hadoop的技术。


在大数据的分析上,VMware在最近收购了一家公司,是通过公共云提供云服务,使得非常容易的能够把数据上传到云里面,可以提供一个可视性的图表,对数据进行很好的展示。无论是多小的公司,无论是什么样的数据,都可以马上提供给你图表,你可以把它拖来拖去,可以进行非常有趣的运作。而这也是一个免费的在互联网上面的服务,大家有兴趣的话可以尝试一下。
在满足快速需求的上面,我们有GemFireSQLFire,无论用什么方式写,他们都是内存为主导的数据库形式,能够帮助非常横向可扩展的形式实时的对数据的反应。在灵活上,我们提供了ObjectGemFire的方式,为关系型数据库提供选择。同时这几种技术也可以一起使用,使得满足所有的应用需求,无论你是需要关系型、非关系型的,都能够满足你的需求。所有这些技术,我们都会进行vsphere应用。
给大家提供一个比较典型的大数据处理系统,以前我们做一个应用可能买一台数据库就可以了,而现在要满足大数据的应用开发,一台数据库是不够的,往往需要比较全面复杂的系统,能够满足整个大数据应用的开发。左上角是各种各样的数据源,包括移动互联网,物联网,社交网络,包括以后会产生各种各样产生数据的东西,包括家里面的冰箱都会有数据产生,送到云中。大数据的平台底下我们需要有统一的云架构,vsphere在全球有3千名员工在进行统一的开发。大数据是我们大家最关注的应用,能够怎么样使我们的vsphere一代比一代能够更加满足上面各种各样大数据需求的发展。在这个大数据上我们有各种各样的管理系统,大家比较熟悉的例子就是不能让你很好的更新或者是删除,但是对于大数据是一个非常可扩展性的文件系统。在这么一个大数据文件系统上,我们往往对这些数据进行三种分析。
第一种是需要进行实时分析。在数据产生本身的同时,我们可能需要立刻能够产生反应。大家熟悉的例子,比如我们在互联网上买一个东西,可以根据我现在要看的网页,我要买什么东西,我的行为能够马上决定给我贴什么样的广告,这个时候需要很快的反应,按照你上面按的什么键,下面就会出来广告,需要一个非常好的实时管理系统。而我们的GemFire就是一个很好的工具。
第二种是交互处理。使得如果提一个很好的问题的话,能够比较快,比较有效、高实效的分析,告诉给我结果。这个时候如果我作为公司的CEO,或者是管理成员,或者是作为分析师,就能够回答这个问题,为什么我们今年销售增长这么快,为什么这个竞争对手比较强,那个竞争对手比较弱,就可以提供很好的答案。
第三种是批处理。数据如此之大,很多时候你无法预估所有的问题,无法把所有的检索都能够完全做好,这时候就需要一个比较好的技术,比较可扩展的技术。无论你问的是什么新鲜的问题,我都可以通过这个技术,在所有的数据上跑一遍,能够把我需要的答案比较快速的能够反馈给我。
我在这个大数据处理平台,需要有一个统一的基础架构,在这上面需要有三种不同的处理模式,能够满足他的需要。Hadoop在其中是非常重要的技术,但是并不是非常充分的技术,还需要很多新的技术,能够和Hadoop一起满足客户的需要。在这个大数据的平台之上,我们要有一个数据分析的应用以及数据展示的模式,可以提供给各种各样的用户。这些用户包括比较专业的用户,包括这些数据分析师,数据科学家,包括我们的开发者,也包括比较非专业的用户,像管理者,或者甚至是卡车司机,甚至任何行业的人,往往都能够从这个大数据系统中得到他的好处。
EMC
VMware有几百个工程师,在两岸三地进行大数据研发,我们的成果今年已经逐渐的向大家展示了,包括我们的Hadoop,我们Greemplum的产品,我们的GemFire的产品,之后我们还将继续努力工作,继续好好合作。EMC的工程师和VMware的工程师,帮助大家一起把你的大数据带到你的云。
我就跟大家分享到这里,下面是比较好的舞台剧,会把这个大数据系统以一个非常新颖的方式呈现在大家的面前,谢谢大家!

注:本文是VMware全球高级副总裁范承工博士在2012年8月8日VMware&EMC大数据高峰论坛上的主题演讲

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值