数据仓库内容分享(十八):数据仓库、数据中台、大数据平台的关系?

目录

什么是数据仓库呢?

什么是数据平台?

那什么是大数据平台呢?

什么是数据中台呢?

数据中台和数据仓库的区别是什么?

数据中台和大数据平台的区别是什么?

小结


什么是数据仓库呢?

数据库的概念,大家应该都不陌生,而数据仓库其实就是数据库概念的升级版。

数据仓库是为了解决数据库负载有限、满足企业新增的分析需求而被设计出来的。如果数据想要从各个数据库迁移到统一数据仓库中,就需要经历抽取、转化、加载(ETL),最终变身成可以直接被业务人员分析的结构化/半结构化的数据。在数据仓库后面,企业常用BI分析数据,产生报表,辅助决策。

数据仓库是指存储大量数据的一个系统,数据仓库通常被用来收集、整合和存储企业或组织的各类数据,以便进行分析和决策。数据仓库具有以下特点: 

1. 统一性:数据仓库包括企业内的各个业务领域,可将各种分散的数据整合起来。 2. 容错性:可以处理包含异常数据或数据失真的大型数据集。 

3. 冗余性:数据仓库允许数据的冗余存储,以提高数据访问的速度和效率。 

4. 支持大数据量:数据仓库系统可以处理大规模数据。 

5. 面向主题:数据仓库是围绕特定主题或业务问题来设计和构建。 通过数据仓库,企业可以从海量的数据中提取有价值的信息,用于业务分析和决策制定。

用一个蔬菜储存的例子来简单理解一下:

如果我们把地里的蔬菜看作是数据,那么土地就是数据库。在蔬菜成熟后,我们需要把蔬菜从地里摘下来放在地窖,那么地窖就是数据仓库。

在把蔬菜放到地窖需要拔菜、择菜、放菜这三个步骤,这三步就是ETL。存放到地窖里的都是干净健康的蔬菜,这些干净健康的蔬菜就是结构化/半结构化的数据。

一块地一般只种植一种蔬菜,但是一个地窖可以存放各种各样的蔬菜,所以数据仓库可以储存来自于多个数据源的数据。后续我们需要从地窖里拿蔬菜去做菜,这个做菜的过程就是用BI进行分析,做好的成品就是分析报表。

总而言之,数据仓库就是一个“为企业实现数据模型构建”的产品。

什么是大数据平台呢?

说到大数据平台,那必定要说说另一个和它一字之差的概念“数据平台”。

什么是数据平台?

前面讲了数据仓库存储的是结构化和半结构化的数据,那非结构化的数据该由谁来储存呢?对,就是数据平台。数据平台是为了解决数据仓库不能处理非结构化数据和报表开发周期长的问题而产生的,它先是将企业所有格式的数据都抽取出来放到一起,形成一个大的数据集,再根据业务需求,单独提取其中的小数据集提供给数据应用。

那什么是大数据平台呢?

大数据平台是数据平台在大数据时代的概念衍生,其功能要远胜于数据平台。大数据平台是一个以处理海量数据存储、计算以及流数据实时计算等场景为主的技术堆栈,包括数据采集、数据存储、数据计算、数据应用和任务调度,最典型的是基于Hadoop生态构建的大数据平台。在非结构数据、实时数据和海量数据的计算和存储压力下,企业才选择从数据仓库转向大数据平台

用一个汽车工厂的例子来简单理解一下:

如果我们把汽车工厂生产汽车的过程看作是企业利用数据决策的过程,那么各种原材料就是数据,工厂中的设备就是大数据平台,工厂设备运作所必须的水和电就是大数据平台的框架Hadoop。Hadoop提供大数据生产所必须的计算和存储资源,大数据平台使得数据开发人员具备对数据的加工和处理能力,类比汽车工厂就是设备让工人具备了对原材料的加工能力。

大数据平台作为一套基础设施,主要用于处理海量数据存储、计算以及流数据实时计算等场景,并以节约投资降低成本为出发点。然而,实际上从硬件投资到软件开发都比数据仓库建设要复杂得多。

它是一个集数据存储、数据计算分析、数据应用与展示的综合性系统,对数据进行集成、存储、管理、分析和挖掘,用于实现信息的抽象、共享和再利用。大数据平台能够集成不同种类和来源的数据,如结构化数据、半结构化数据和非结构化数据,并开展各种数据处理和分析工作,以便获取宝贵的业务洞察,并为组织提供支持业务决策的数据分析和挖掘服务。大数据平台通常包括数据采集、传输、计算、存储和可视化等多个环节,以数据为核心,提供高效、可扩展以及全面的数据处理服务。大数据平台的建设可以帮助企业通过数据价值链的全面管理与酝酿,充分挖掘数据的潜值,使得企业智能化水平和战略竞争优势进一步得以提升。

总而言之,大数据平台就是一个“为企业解决海量、实时数据存储和计算问题”的技术平台。

什么是数据中台呢?

要理解“数据中台”,我们要先理解“中台”。

中台是相对于“前台和后台”来讲的。前台直接和用户打 交道,包括用户直接交互的界面,比如手机app,还有服务端响应用户请求的业务逻辑,比如商品查询。后台虽然用户看不见摸不着,但是不可或缺,包括面向内部运营人员的管理系统、配置系统。后台为前台提供配置。

如果按照传统”前台-后台“架构,企业业务的增多会导致n多前台和n多后台产生。但实际上,在这么多的前台中,其实有很大一部分模块或功能是重复的。为了不重复造轮子,为了提高开发效率,就需要一个统一的平台来承接共性的功能模块,作为n多前台和n多后台的桥梁,于是中台就出现了。

中台这个概念最先起始于“鼻祖”阿里的“大中台、小前台”概念,随后业界又衍生出业务中台、技术中台、数据中台、安全中台、算法中台等等。这其中,最通用、最热门、最具行业共性的就是“数据中台”。数据中台的出现很好地解决了企业数据后台开发无法快速跟上前台业务需求变化、业务系统数据孤岛且数据繁杂这两大难题,帮助企业打通各业务系统的数据,让数据真正变成资产并服务于业务。

用一个制作菜品的例子来简单理解一下:

如果我们把成品饭菜看作是前台,那么做饭的厨房就是后台,各种蔬菜和调料就是数据。

一家饭店专门卖凉面、凉皮、凉粉等,这些菜用的调味汁是同样的调味料按照同样的比例调制而成的,为了更快出餐,饭店决定用一大桶调制好的调味汁代替一餐一次调味。这里调制一桶调味汁的过程就相当于构建了一个数据中台。因为一桶调料汁的完成,饭菜从厨房原材料到成品给到客户的速度加快了,这说明数据中台可以加速企业从数据到业务价值的过程,为业务提供速度更快的服务。

数据中台是一个数据运营的概念,主要功能是将跨领域的数据集中聚合和治理,将其抽象为服务,提供具有业务价值的逻辑概念。相较于传统的大数据平台,数据中台是升级版的概念,并不再简单地将各个功能混在一起。数据中台在理念上有几个显著特点,首先,更强调数据的集中存储、统一管理和标准化服务的提供;其次,它几乎涵盖了所有相关的系统,包括数据采集、同步、开发、质量管理、标准化、元数据、数据建模和开发、数据服务、安全管理和运维管理等方面,需要与后台进行对接,为前台提供服务;第三,数据中台并非单纯的产品或系统,而是将数据管理的理念和制度转化为系统和产品的形式进行呈现,以实现落地并产生业务价值。数据中台的目标是通过提供工具、流程和方法论,实现数据能力的抽象、复用和共享,以赋能业务部门,提高实现数据价值的效率。阿里提出数据中台的概念,强调与国内现有大数据平台的区别,并专注于解决数据孤岛、重复开发的问题,强调数据共享和复用的概念。

总而言之,数据中台就是一套可持续的“让企业的数据用起来”的机制。

数据中台和数据仓库的区别是什么?

数据中台和数据仓库的区别主要表现在以下几个方面: 

1、功能定位不同:数据中台侧重于数据的整合、管理、治理、交换和流转等方面,是企业数字化转型的关键支撑。而数据仓库主要用于数据的存储、集成和分析,主要面向决策支持和业务分析。

2. 场景应用不同:数据中台适用于面向企业数字化转型的各种组织形式,可以大规模地跨部门、跨系统地数据整合,为业务研发提供数据支撑。而数据仓库主要面向特定的业务领域和业务问题,提供数据分析、挖掘和报告等服务。 

3. 数据处理方式不同:数据中台采用了现代化的信息技术,如云计算、大数据、人工智能和物联网等,把数据打通、共享、流转和运营起来,以满足企业数据资源共享和创新发展需要。为企业的数据治理,数据运营,而数据仓库则更偏向于批量、离线、载入式、定期和固化的数据处理方式。数据仓库,做的是数据的聚集,通过在一套数据建设方法论的指导下,构建数据表,并将几个数据孤岛的数据汇总起来,做一定维度上的聚集和提炼; 

4. 数据管理方法不同:数据中台融合了数据技术、数据治理和业务价值三者,实现对企业客观数据和主观数据的完整管理,从数据来源、数据归档、数据权限、数据合规、数据安全等一系列管理方面来对数据进行全方位的管理与控制。而数据仓库则更强调数据质量、数据规范、数据清洗、数据建模等技术方法,通过对数据的标准化和规范化来提高数据的使用价值。

5、数据的核心理念不同:数据仓库更多的是站在IT技术的角度,注重数据的存储、整合和分析等方面;而数据中台则更多地以业务为导向,强调数据服务于业务的关键地位,从整合、管理、治理、交换和流转等方面提供支撑,助力企业数字化转型。

6、能够处理的数据类型不同:传统数仓的数据来源主要是业务数据库,数据格式以结构化数据为主。而数据中台的数据来源期望是全域数据,包括业务数据库,日志数据,埋点数据,爬虫数据,外部数据等。数据的来源可以是结构化数据或者非结构化的数据。

7、目标不同:数据仓库:面向主题、集成、不可更新、历史数据(大)、源数据(以结构化为主)、元数据(支持数据建模等)、可扩展等。数据中台:融合整个企业的全部数据,打通数据之间的隔阂,消除数据标准和口径不一致的问题。

通过以上分析,数据中台概念是包含数据仓库的,数据仓库是数据中台中的一部分,包含数据存储的技术实现和数据流向,而数据中台除了数据仓库以外还包含数据治理的、数据运营的功能,同时根据企业需要的数据,数据中台是建立在数据仓库上,还是建立在大数据平台的存储结构上。

数据中台和大数据平台的区别是什么?

大数据平台是数据平台,是多个产品的集合,数据中台不是单纯的产品,它是一种数据治理和数据运营的机制,包含业务服务的理念和数据治理、数据运营的功能、组织架构。两者的建设目的都是发掘数据价值,高效实现数字化运营,区别则在于数据中台是具备业务属性的,输入的是原始数据,输出的是业务部门可以直接使用的数据能力。如果必须要将数据中台和大数据平台区分开来,可以说数据中台是建立在大数据平台的基础层之上,强调提供相应的工具和机制来实现数据能力的全局抽象、共享和复用。

小结

最后,给大家做个总结。数据仓库算产品,大数据平台算平台,数据中台算机制。相比数据仓库和大数据平台,数据中台离业务更近。数据中台的开发和建设既可以建立数据仓库基础上,也可以建立在大数据平台基础上,区别就在于企业的数据应用场景是否多元化。

  • 19
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

之乎者也·

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值