专访偶数科技常雷:三代数据仓库的演进

据相关机构预测全球大数据市场规模将在2020年达到千亿美金,而数据仓库作为数据生态系统中的重要一员,其市场规模现在已近两三百亿美金。如今,随着大数据和人工智能的发展,数据仓库迎来新的挑战和发展机遇。

  2017年10月19日-21日,在京举办的第九届系统架构师大会邀请到了偶数科技创始人兼CEO常雷为我们解读数据仓库的演进以及新一代数据仓库的发展。

专访偶数科技常雷:三代数据仓库的演进
偶数科技创始人兼CEO 常雷

  三代数据仓库的演进

  数据仓库最早可以追溯到20世纪80年代末期,IBM研究人员Barry Devlin和Paul Murphy为解决企业集成的问题,创造性的提出了“数据仓库”这一术语。而其真正在企业中得到大规模应用则是始于 1992年Bill Inmon出版的《Building the Data Warehouse》,该书不仅为数据仓库建设定义了非常具体的原则,还提出了很多建设性意见。

  从首次提出到发展至今,常雷认为数据仓库大概可以分为三个阶段,第一阶段是采用共享架构的传统数据仓库,这类数仓主要是面向传统的BI分析,可扩展性较差,大概是十几个节点;第二阶段是无共享架构的MPP,这类数仓主要是面向有复杂需求的传统BI分析,典型的代表有Teradata、Vertica、Greenplum等等;前两个阶段的数据仓库架构都存在缺乏弹性、不易调整、难以实现秒级扩容等问题,而新一代数据仓库克服了这些困难,实现了弹性伸缩和灵活配置。

  新一代数据仓库主要是面向大数据和人工智能,支持工业标准的X86服务器,可扩展到上千个节点。如果再进一步细分的话,新一代数据仓库可分为SQL on Hadoop、SQL on Object Store和Hybrid。

专访偶数科技常雷:三代数据仓库的演进

  新一代数据仓库:Oushu Database 3.0

  Oushu Database 3.0是由偶数科技在今年9月21日推出的新一代企业级分析型数据仓库引擎,是Apache HAWQ的企业增强版本,其最核心的技术是对执行器进行了全新改进,充分利用了新硬件的特性;支持ORC外部存储格式,外部存储性能可提升10-50倍;支持新一代可插拔存储框架,添加一个外部数据源,只需编写几个函数。

  “光说不练假把式”,下面我们就来和最新版本的SparkSQL 2.2来做一个对比:

专访偶数科技常雷:三代数据仓库的演进

专访偶数科技常雷:三代数据仓库的演进

Count不同数据类型的列

专访偶数科技常雷:三代数据仓库的演进

SUM/AVG不同数据类型的列

专访偶数科技常雷:三代数据仓库的演进

Group by表达式

专访偶数科技常雷:三代数据仓库的演进

Group by不同数据类型的列, 取其SUM和AVG

  综合各种SQL语句执行情况来看,Oushu Database的性能相比SparkSQL要快20倍左右。据常雷介绍Oushu Database可以支持PB级数据,在工业、税务、金融和电力领域均有应用,未来会逐步开源出来。

  不惧强敌,中国数据库蓬勃发展的时代已然来临

  数据库领域一直是大厂林立,但是初创企业也并不是没有立足之地。《创新者的窘境》中曾描述过巨头企业做的是延续性创新,对现有价值网络的维护和加强,而初创企业做的是破坏性创新,从低毛利市场出发逐步颠覆现有的巨头企业。常雷十分认同这一观点,创业公司打败巨头企业是不可逆的趋势,关键是哪个创业公司会成功。

  创业是件很苦逼的事情,曾任EMC高级研究员,EMC/Pivotal研发部总监的常雷为什么会选择离开EMC自己创业呢?对此,他表示主要是出于两方面的考虑,一是国内数据库领域的大环境已经不同于一二十年前了,基础软件蓬勃发展的时代已经来临,二是因为大公司中有很多好的idea,但是由于部门众多,流程复杂等等现实原因想要真正落地却很难,所以综合考虑独立创业可能会做得更好,市场会更大。

  “我们要做世界上最快的数据仓库!”在采访中,常雷掷地有声地向笔者表达了自己的目标。据常雷透露,Oushu Database 4.0也将很快和大家见面,该版本允许跨数据中心部署,全面支持分析系统和核心系统高可用的特性。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/31137683/viewspace-2154037/,如需转载,请注明出处,否则将追究法律责任。

转载于:http://blog.itpub.net/31137683/viewspace-2154037/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值