数据仓库建立

数据仓库准备工作

1、为什么要对数据仓库分层?

  • 用空间换时间,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据。
  • 如果不分层的话,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工作量巨大。
  • 通过数据分层管理可以简化数据清洗的过程,因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。

2、数据仓库标准分层

数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、MID(数据集市层)、APP(应用层)

  • ODS层: 
    为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数据粒度上来说ODS层的数据粒度是最细的。ODS层的表通常包括两类,一个用于存储当前需要加载的数据,一个用于存储处理完后的历史数据。历史数据一般保存3-6个月后需要清除,以节省空间。但不同的项目要区别对待,如果源系统的数据量不大,可以保留更长的时间,甚至全量保存;
  • PDW层: 
    为数据仓库层,PDW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。这一层的数据一般是遵循数据库第三范式的,其数据粒度通常和ODS的粒度相同。在PDW层会保存BI系统中所有的历史数据,例如保存10年的数据
  • MID层: 
    为数据集市层,这层数据是面向主题来组织数据的,通常是星形或雪花结构的数据。从数据粒度来说,这层的数据是轻度汇总级的数据,已经不存在明细数据了。从数据的时间跨度来说,通常是PDW层的一部分,主要的目的是为了满足用户分析的需求,而从分析的角度来说,用户通常只需要分析近几年(如近三年的数据)的即可。从数据的广度来说,仍然覆盖了所有业务数据。
  • APP层: 
    为应用层,这层数据是完全为了满足具体的分析需求而构建的数据,也是星形或雪花结构的数据。从数据粒度来说是高度汇总的数据。从数据的广度来说,则并不一定会覆盖所有业务数据,而是MID层数据的一个真子集,从某种意义上来说是MID层数据的一个重复。从极端情况来说,可以为每一张报表在APP层构建一个模型来支持,达到以空间换时间的目的数据仓库的标准分层只是一个建议性质的标准,实际实施时需要根据实际情况确定数据仓库的分层,不同类型的数据也可能采取不同的分层方法。

3、实际数据仓库分层

这里我们采用的是京东的数据仓库分层模式,是根据标准的模型演化而来。 
数据仓库分层:

  • BDM:缓冲数据,源数据的直接映像
  • FDM:基础数据层,数据拉链处理、分区处理
  • GDM:通用聚合
  • ADM:高度聚合

先把数据从源数据库中抽取加载到BDM层中, 
然后FDM层根据BDM层的数据按天分区。

 

数据仓库基本表介绍

1、BDM层数据表(贴源缓存层)

表名含义
itcast_bdm_order订单表
itcast_bdm_order_desc订单明细表
itcast_bdm_order_goods订单商品表
itcast_bdm_user用户表
itcast_bdm_order_cart购物车表
itcast_bdm_user_pc_click_log、itcast_bdm_user_app_click_log用户上网记录表

2、FDM层数据表(拉链表、分区表)

表名含义
itcast_fdm_user_wide用户宽表
itcast_fdm_order_cart购物车表
itcast_fdm_order订单表
itcast_fdm_order_desc订单明细表
itcast_fdm_user_app_pageview用户app端view表
itcast_fdm_user_pc_pageview用户pc端view表

3、GDM层数据表(通用数据模型层)

表名含义
itcast_gdm_user_basic客户基本属性表
itcast_gdm_user_consume_order客户消费订单表
itcast_gdm_order订单模型表
itcast_gdm_user_buy_category客户购买类目表
itcast_gdm_user_visit客户访问信息表

 

  • 3
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值