关于数据仓库几个术语的个人见解




数据仓库(Data Warehouse简称DW

1.目前最通用的定义是数据仓库就是面题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应。

2.一般来说,数据仓库给人的最直观感受是,长时间跨度(5-10年)集成了企业的多个数据源。

3.面向主题,则是在数据仓库建设过程中,根据数据的业务特性和需求分类,对源数据进行抽象和归类形成主题。主题也可分为主题域和主题,一个主题域可包含多个主题,每个主题域里面都会有一个或一组公共码键将里面的所有主题串联起来。例如:营销主题域,可能包括:客户主题、市场主题、供应商主题等。


数据集市Data Mart 简称 DM

1.数据集市,是在数据仓库的基础上,根据部门需求或主题划分具体的集市,数据集市比数据仓库规模小,但针对性更强。例如:财经集市、CRM集市、风险集市等。

2.数据集市比数据仓库的粒度更高,因为常常要在明细数据的基础上汇总计算出相应的指标供相关人员查阅,例如:金融领域,会按月汇总客户相关的KIP值(基金净值、基金份额,国债净值、国债份额、逾期金额、逾期期数);制造业,会按月汇总产品相关的价格指标(计划成本、实际成本、折扣成本)


商业智能(Business Intelligence 简称 BI

1.BI是指利用相关的报表工具和数据清理技术,将企业数据进行商业分析,提供数据钻取、切片以及旋转功能,能够帮助决策人员从多个角度看待数据情况。

2.BI往往是跟数据仓库相辅相成的,一方面可能由于企业的战略需求要引进BI从而需要建设数据仓库将企业数据统一整合和清理,以方便决策,另一方面也可能是数据仓库已初具规模,引进相关的BI系统,作为直接的创收点。

3.当然,在现实工作当中也有些是不走数据仓库层直接出BI报表的,大多数是处于成本和效益回收速度的考量。

4.有些BI出的指标和数据集市出的指标有相似或者在主题上甚至可以合并在一起,但为什么又不放在数据集市呢?原因可能有很多,通常是:数据集市和BI建设时间不同步,导致迁移困难或者是数据仓库团队没那么多人力一一满足各个部门的需求,从而有些部门自行聘请BI团队,建设本部门的BI的系统。


ETL(Extract-Transform-Load)

1.数据抽取、清理、装载是数据仓库建设的核心一环,也是需要花费巨大人天的部分。没有ETL将源数据抽取、清理、再加载到数据仓库,数据仓库永远只是个模型而已(BI也同样如此)。

2.狭义一点的ETL,可以认为是工具。ETL工具有很多,例如:传统行业大多使用 DataStage Informatica  互联网企业偏向于开源的Hadoop工具。

但是不管使用哪种工具,其主要的开发思想还是跟标准的SQL很相近,只是做了图形化和封装。当然一般ETL工具还提供有调度功能和元数据管理功能。



元数据(Meta Data

1.数据仓库中的元数据大多的定义是,用于描述数据仓库的组成架构、业务数据情况、数据清洗规则的一整套相关元数据的表,是一种描述数据的数据。

2.元数据一般情况下,会优先定义数据源、数据仓库层次和主题、数据仓库目标表信息、数据仓库ETL信息。良好的元数据管理,可以让技术人员或者业务人员通过这些元数据,就能够快速地看清数据仓库目前的数据规模和数据情况。



 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值