很多人数仓开发人员有一个误解,认为数仓开发的门槛极低,只需要会写SQL就可以了。其实不然,专业的数仓开发需要很多方便的知识沉淀,包括但不限于:需求理解,培养业务sense,指标梳理、数据采集、落仓、数据探索、数据建模、调度配置、数仓上线、数据核对、数仓下线等等。
会搭建数仓不难,但是搭建一个规范的、高效的、高扩展的、低成本的数据仓库,绝对不是一件简单的事情。这既要知识面的宽度,更需要知识面的深度,当然少不了需要经验的积累。这里的经验就是多做项目,多踩坑,经过不断的总结和提升,你就能在新的项目和产品中少走一些弯路。
很多刚刚踏入数仓建设工作的技术人员,对数仓建设的整个生命周期没有一个全面的认识。因为工作经验尚浅,一般都是从事数仓建设的某个环节,例如只负责采集,或者只负责ODS落仓等等。这就限制了你的视野,拖慢了你前进的步伐,我们不能学盲人摸象,也不能管中窥豹。
废话不多话,先上大纲,看看数仓建设的整个生命周期是怎样的:
一:需求阶段
- 需求承接
- 产品设计
- 产品输出物
- 产品设计评审
- 需求宣贯
二:指标管理
1、指标体系
- 数据指标和指标体系的概念
- 指标体系的意义
- 指标管理容易出现的问题
- 应对策略
- 指标体系的组成
- 如何定义数据指标
- 指标体系管理工具
三:数据采集
- 数据的来源
- 采集方式
- 采集机制:增量/全量
- 采集工具
- 采集常见的问题以及应对策略
四:数据建模
- 数据建模的意义
- 数据落仓
- 数据探索
- 维度建模
- 数仓分层设计
五:节点开发
- DDL定义
- 统一维表和UDF自定义函数
- 可扩展性
- 调度配置
- 调度测试
六:数据治理
- 数据治理的概念
- 数据治理的目标
- 数据治理要做什么
七:数仓上线
- 上线准备:数据字典、元数据字典、测试报告、运维手册、血缘图
- 提交上线流程,将上线准备的文档作为流程的附件
- 审核上线流程和附件
- 执行上线操作
八:数据应用
数仓的指标结果数据,输出到关系型数据库或者直接调用数据中台的数据服务,可以供上层产品使用。例如:小程序、APP、PC报表、数据大屏等等。
九:数据运营
产品交付不是闭环,还需要运营,多与用户沟通,听取反馈意见,采用合理建议,优化产品
持续完善产品运营机制,提升产品对业务的响应效率。
十:数仓下线
当某些节点或者整个数仓不再使用的时候,为了避免资源浪费,为了清晰掌握哪些数仓在使用,哪些已经废弃。数仓开发人员需要走任务下线流程。说明:下线原因、下线内容、下线时间