词义辨析:BI, 数据仓库,数据中台,数据湖,Hadoop

        这是一个不断出现新概念的时代,和大数据相关的上面这些词含义有什么区别呢?本人根据多年的大数据领域工作经验来说一下自己的理解。企业对于数据的使用由来已久,数据量小的时候通过人工+类似Excel的软件就能搞定,随着公司规模扩大和数据量增多,并且随着互联网这种对数据依赖性强的企业出现,对数据加工使用的难度就大大增加了。所以产生了很多新概念、新技术,其中就有BI, 数据仓库,数据中台,数据湖,Hadoop等。

        这些词产生的时间、背景、目的等各不相同,但是数据处理和使用的本质是不变的(收集、处理、分析数据,得到有价值的结果)。但是随着复杂性和量级的增加,需要对这项工作分不同阶段、从不同角度来描述和处理,所以就产生了不同的词。下面逐个说一下这些词的具体含义和区别。

        BI全称是Business intelligence,商业智能。这个词最早产生于1865年,它的含义很宽泛直接:任何通过加工事实数据,对商业决策提供帮助的工具、技术、概念等都属于“BI”。我们可以想象得到,BI最初对应的场景是一些会计人员收集数据、做些计算、然后提供一些统计结果给决策层参考;在大数据时代,公司中从事BI相关工作的人员、使用的工具等都大大地扩充了,演变成了一个专门的领域。

        数据仓库(data warehouse)在1970年左右 由Bill Inmon 开始定义和讨论,还有一些大学、公司也参与了讨论和具体实施。数据仓库和BI比,它指一个实际的系统,这个系统收集、处理数据,然后分析、展现出结果。既然是个实际的系统,就有很多理论或案例来说明如何实现它,比如数据的采集、分层、ETL(Extract, transform, load)流程等。数据仓库在实施之初就有一个目标或者主题,比如更准确及时地获得公司内各个环境交易状态,提高决策效率等。实施完成之后就得到了一个持续可用的系统。数据仓库产生于大数据时代之前,尤其是在Hadoop系列软件诞生之前,所以数仓常被划分为传统数仓和现代数仓。

        数据中台这个流行词来自于中国,尤其受到阿里的“大中台、小前台”口号的影响,硅谷那边和这个词比较接近的是数据平台(Data Platfom)。数据中台的产生,根本上是集团型公司内数据处理的复杂性、重要性的提升引起的。一般小公司如果数据仓库建设得比较好的话,已经可以很好地满足需求了,但是集团型公司经常有几十个独立部门或子公司,每个独立部门可能都会建设自己的数据仓库系统,来满足运营、决策等数据需求。 这种情况的缺点是:1 各个独立数仓的标准不统一,需要获得全集团的整体指标数据非常困难;2 存在重复建设,浪费人力资源以及软硬件资源; 3 数据互通困难,但需要数据互通,因为不同类型的数据互通起来,经常能获得1+1 远大于2的效果。

基于以上3点很多大公司选择建设数据中台,数据中台更多的是指组织架构的设置(成立一个中台部门负责全集团的数据工作,为其它业务部门服务),以及基础数据组件的复用(中台部门不是把其它部门的数据工作都做了,重点在提供通用的数据存储平台、计算平台、数据分析治理工具等)。

       数据湖(Data Lake)是个比较新的概念,是由James Dixon在2011年提出的。它被有些批评者说为了炒作而发明的新词。数据湖主要意思是这样一个系统:各种类型的数据源都可以将数据存入数据湖,而且可以是不经过加工的原始数据;后续基于这些数据可以做进一步的处理和使用。

其实在构建数据中台的过程中,必不可少的一步就是把各个数据源的数据汇总到一起,然后通过一些计算引擎进一步加工处理。数据湖强调了数据的统一存储,这个是很重要的;但是不经过很好地解析和处理的数据是无法使用和产生价值的,数据湖绕不开对数据解析和处理这个繁琐过程,而数据湖并没有在数据解析和处理方面贡献什么新的技术和工具(依然用的是现代数仓的那一套),估计这是这个词被质疑炒作的原因。

        Hadoop,一般指Apache Hadoop,这是一个开放源码的软件系统。一些和Hadoop相关的开源软件覆盖了大数据处理的方方面面,被称为“Hadoop生态系统”。

Hadoop系列的软件已经是大数据时代必用的软件,无论是BI,数据仓库还是数据中台、数据湖,几乎都需要使用Hadoop系列的开源软件来实现(Google除外,Google实现大数据平台的时候Hadoop软件还没有诞生)。现在市面上的大数据服务商,无论提供的软件系统叫数据仓库、还是数据湖,核心组件都是对Hadoop生态系统中软件的封装改造。

        上面是我对这些词的理解,有不对的地方请各位看官批评指正~

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值