数据中台
数据时代带来的挑战不仅仅是数据量的爆发式增长,更重要是如何管理好、治理好、利用好这些数据,
显然传统的大数据建设方法论无法满足需
“数据中台”一般包含以下几个部分:
1、数据仓库:用来存储数据的,结构性数据、非结构性数据等,还有离线数据和实时数据等;
2、大数据中间件:包含了大数据计算服务、大数据研发套件、数据分析及展现工具;
3、数据资产管理:按照阿里的体系应该分为垂直数据、公共数据和萃取数据3层;
数据中台从某个意义来说属于数仓的一种,都是要把数据抽进来建立一个数据仓库。
但是两者的数据来源和建立数仓的目标以及数据应用的方向都存在很大差异。
首先,从数据来源来说,数据中台的数据来源期望是全域数据包括业务数据库,日志数据,埋点数据,爬虫数据,外部数据等。
数据的来源可以是结构化数据或者非结构化的数据。而传统数仓的数据来源主要是业务数据库,数据格式也是以结构化数据为主。
其次,建立数据中台的目标是为了融合整个企业的全部数据,打通数据之间的隔阂,消除数据标准和口径不一致的问题。数据中台通常会对来自多方面的的基础数据进行清洗,按照主题域概念建立多个以事物为主的主题域比如用户主题域,商品主题域,渠道主题域,门店主题域等等。数据中台遵循三个one的概念: One Data, One ID, One Service,就是说数据中台不仅仅是汇聚企业各种数据,而且让这些数据遵循相同的标准和口径,对事物的标识能统一或者相互关联,并且提供统一的数据服务接口。就像做菜一样,按照标准化的菜名,先把所有可能用到的材料都准备好。而传统的数仓主要用来做BI的报表,目的性很单一,只抽取和清洗该相关分析报表用到基础数据,新增一张报表,就要从底层到上层再做一次。
然后,在数据应用方面,建立在数据中台上的数据应用不仅仅只是面向于BI报表,更多面向营销推荐,用户画像,AI决策分析,风险评估等。而且这些应用的特点是比较轻,容易快速开发出来,因为重要的数据分析工作在数据中台已经完成并且沉淀,之前工作成果都能被多个应用共享。
而传统的数据仓库主要是面向报表,数据应用的建设就是传统烟囱式建设,每次都从头再来的开发方式。