离线数仓
文章平均质量分 84
程序员的三板斧
一个人必须不停地写作,才能不被茫茫人海淹没。
展开
-
数仓的命名规范
词根设计规范词根属于数仓建设中的规范,属于元数据管理的范畴,现在把这个划到数据治理的一部分。完整的数仓建设是包含数据治理的,只是现在谈到数仓偏向于数据建模, 而谈到数据治理,更多的是关于数据规范、数据管理。 表命名,其实在很大程度上是对元数据描述的一种体现,表命名规范越完善,我们能从表名获取到的信息就越多。比如:一部分业务是关于货架的,英文名是: rack,rack 就是一个词根,那我们就在所有的表、字段等用到的地方都叫 rack,不要叫成 别的什么。这就是词根的作用,来统一命名,表达同一个含义。 指标原创 2022-03-20 22:27:40 · 2131 阅读 · 0 评论 -
数仓各层的开发规范
ODS层设计规范同步规范一个源表只允许被同步一次全量初始化 和 增量的同步处理逻辑要清晰以统计如期和时间进行分区存储自动填充在源表中不存在的字段表分类和生命周期ODS流水全量表不可再生的永久保存;日志可按留存要求;按需设置保留特殊日期数据;按需设置保留特殊月份数据;ODS镜像全量表推荐按天存储对历史变化进行保留最新的数据存储在最大的分区历史数据按需保留ODS增量数据推荐按天存储有对应全量表的,建议只保留14天的数据无对应全量表的永久保留ODS ETL原创 2022-03-20 22:26:19 · 1646 阅读 · 0 评论 -
数仓公共开发规范
1)层次调用规范数据流向稳定业务ODS -> DWD -> DWS -> APP稳定业务或者探索性业务ODS -> DWD -> APP 或者ODS -> DWD -> DWM -> APP保证数据分层的引用原则对于 ODS -> DWD -> DWS -> APP 这种关系时->主题域未覆盖全。将 DWD 数据落到 DWM 中对于使用频度非常低的表允许 DWD -> DWS尽量避免DWS宽表的数.原创 2022-03-15 22:52:10 · 929 阅读 · 0 评论 -
数仓的架构模型
1)数仓的分层原则好的数仓分层并不是为了分层而分层,没有最好的只有更合适的,要考虑对下游及整个链路的影响好的分层架构的要求清晰的数据结构数据血缘的追踪减少重复的开发数据关系的条理化屏蔽对原始数据的影响数据仓库的分层ODS -> DW->DM->APPODS:数据源层 - Oprational Data Store本层为数据源层,考虑到以后对数据源的追溯问题,不对业务数据进行处理,保持原有的数据,对一些数据的处理,比如去重、过滤空值等都放到DW层进行处理原创 2022-03-14 22:17:13 · 928 阅读 · 2 评论