什么是onedata?如何使用onedata?
OneData即是阿里巴巴内部进行数据整合及管理的方法体系和工具。阿里巴巴的大数据工程师在这一体系下,构建统一、规范、可共享的全域数据体系,避免数据的冗余和重复建设,规避数据烟囱和不一致性,充分发挥阿里巴巴在大数据海量、多样性方面的独特优势。
OneData的实施方法如下:
OneData实施大体分为三步:
1 要进行充分的业务调研和需求分析。这是数仓构建的基石,业务调研和需求分析做得是否充分直接决定了数据仓库建设是否成功。
2 进行数据总体架构设计,主要是根据数据域对数据进行划分,按照维度建模理论,构建总线矩阵、抽象出业务过程和维度。
3 对报表需求进行抽象,整理出相关指标体系,完成指标规范定义和模型设计。
如上图所示,实施过程主要包括如下内容:
(1)数据调研
数据调研分为业务调研
和需求调研
1.业务调研
以阿里巴巴为例,集团涉及的业务领域涵盖电商、数字娱乐、导航等。各个领域又包含多个业务线。例如,电商领域涵盖C类的淘宝和天猫,B类的阿里巴巴中文站和速卖通。
一般各个业务领域独自构建数据仓库,业务领域内的业务线由于业务相似、业务相关性较大,进行统一集中建设。
2.需求调研
了解了业务系统的业务后并不代表就可以进行实施了,此刻要做的就是收集数据使用者的需求,可以去找分析师、业务运营人员了解他们有什么数据诉求,此时更多的就是报表需求。
需求调研路径主要是两类:一是根据与分析师、业务运营人员的沟通获知需求;二是对报表系统中现有的报表进行研究分析。
(2)架构设计
架构设计主要包含数据域划分
和构建总线矩阵
。
1.数据域划分
数据域是指面向业务分析,将业务过程或者维度进行抽象的集合。如表 所示,一般情况下,数据域可以按照不同的功能模块进行划分。业务过程通常是一个个不可拆分的行为事件,如下单、支付、退款。数据与需要抽象提炼,并长期维护和更新,但不轻易变动。在划分数据域时要既能涵盖当前业务需求,又能支撑新业务的加入。
2.构建总线矩阵
构建总线矩阵分两步:一是明确每个数据域下有哪些业务过程;二是业务过程与哪些维度相关,并定义每个数据域下的业务过程和维度。
(3)规范定义
(4)模型设计
(5)总结