java中仓库表怎么命名_数据仓库命名规范 PDF 下载

0X00 前言 数据仓库的建设实施和落地需要团队中不同成员的参与和配合,需要各种各样 的规范, 规范的分层定义和表命名能让使用者轻而易举地明白该表的作用和含义。 因此本文档重点介绍分层规范和可落地的表命名规范。 01XX 数据分层 一、数据运营层:ODS(Operational Data Store) ODS 层,是最接近数据源中数据的一层, 为了考虑后续可能需要追溯数据 问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即 可,至于数据的去噪、去重、异常值处理等过程可以放在后面的 DWD 层来做。 二、数据仓库层:DW(Data Warehouse) 数据仓库层是我们在做数据仓库时要核心设计的一层,在这里,从 ODS 层中 获得的数据按照主题建立各种数据模型。DW 层又细分为 DWD(Data Warehouse Detail)层、DWM(Data WareHouse Middle)层和 DWS(Data WareHouse Servce) 层。1. 数据明细层:DWD(Data Warehouse Detail) 该层一般保持和 ODS 层一样的数据粒度,并且提供一定的数据质量保证。 DWD 层要做的就是将数据清理、整合、规范化、脏数据、垃圾数据、规范不一致 的、状态定义不一致的、命名不规范的数据都会被处理 。 同时,为了提高数据明细层的易用性,该层会采用一些维度退化手法,将维度

退化至事实表中,减少事实表和维表的关联。 另外,在该层也会做一部分的数据聚合,将相同主题的数据汇集到一张表中, 提高数据的可用性 。 2. 数据中间层:DWM(Data WareHouse Middle) 该层会在 DWD 层的数据基础上,对数据做轻度的聚合操作,生成一系列的中 间表,提升公共指标的复用性,减少重复加工。 直观来讲,就是对通用的核心维度进行聚合操作,算出相应的统计指标。 在实际计算中,如果直接从 DWD 或者 ODS 计算出宽表的统计指标,会存在 计算量太大并且维度太少的问题,因此一般的做法是,在 DWM 层先计算出多个小的 中间表,然后再拼接成一张 DWS 的宽表。由于宽和窄的界限不易界定,也可以去掉 DWM 这一层,只留 DWS 层,将所有的数据再放在 DWS 亦可。 3. 数据服务层:DWS(Data WareHouse Servce) DWS 层为公共汇总层,会进行轻度汇总,粒度比明细数据稍粗,基于 DWD 层上的基础数据,整合汇总成分析某一个主题域的服务数据,一般是宽表。DWS 层 应覆盖 80%的应用场景。又称数据集市或宽表。 按照业务划分,如主题域 流量、订单、用户等,生成字段比较多的宽表,用 于提供后续的业务查询,OLAP 分析,数据分发等。 一般来讲,该层的数据表会相对比较少,一张表会涵盖比较多的业务内容,由 于其字段较多,因此一般也会称该层的表为宽表。 2 / 10

三、数据应用层:APP(Application) 在这里,主要是提供给数据产品和数据分析使用的数据,一般会存放在 ES、 PostgreSql、Redis 等系统中供线上系统使用,也可能会存在 Hive 或者 Druid 中 供数据分析和数据挖掘使用。比如我们经常说的报表数据,一般就放在这里。 四、维表层(Dimension) 最后补充一个维表层,维表层主要包含两部分数据: 高基数维度数据:一般是用户资料表、商品资料表类似的资料表。数据量可能是 千万级或者上亿级别。 低基数维度数据:一般是配置表,比如枚举值对应的中文含义,或者日期维表。 数据量可能是个位数或者几千几万。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值