数据仓库笔记

  • 总览
  • 数据建模
  • 数据开发
  • 数据监控
  • 元数据
  • 数据治理

一、总览

        本文尝试从搭建数据仓库的角度来分析数据仓库的核心生产要素。从开始建立数据模型,再到搭建完成后的数据监控,以及后期进行的元数据建设和数据治理,即形成了一个完整的数据仓库生命周期。下文针对每个部分进行分析。

        在搭建数据仓库之前,应该先明确数据规范。数据规范常常包括以下这些部分。

  • 库表规范:库规范、表命名规范、字段命名规范、字段类型规范、字段备注规范、TTL规范
  • 开发规范:项目目录规范、项目任务名称规范、任务队列规范、任务代码规范等

二、数据建模

        在进行数据开发之前,通常需要进行系统的数据建模。在常用的lambda架构下,实时数仓和离线数仓只是计算引擎和储存介质不一致,其数据模型是一致的,因此数据建模极其重要。

  • 高层建模深入并抽象业务

        数据模型来源于业务,我们应该首先深入了解业务的逻辑,再抽象业务横向的主题域。例如短视频可以抽象为视频、用户、音乐、道具、行为、社交、电商等等,主题域依赖业务实体而存在,而又因为业务不同可以区分出边界。

  • 中层建模:明确主题域之间和之内关系

        首先应该明确每个主题域的唯一主键,并由此得到主题域之间主键的连接关系。再明确主题域内的层次结构,例如视频日志明细信息、视频明细信息、视频统计信息、视频维度属性等等明细和统计层结构。

  • 底层建模:明确表关系和字段

        针对

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值