第一章:专栏大纲

本文介绍了数据仓库开发的全面流程,包括需求阶段、指标管理、数据采集、数据建模、节点开发、数据治理、数仓上线、数据应用、数据运营及数仓下线。强调了数仓建设不仅需要SQL技能,还涉及业务理解、指标梳理、数据治理等多个环节,是技术和经验的结合。
摘要由CSDN通过智能技术生成

很多人数仓开发人员有一个误解,认为数仓开发的门槛极低,只需要会写SQL就可以了。其实不然,专业的数仓开发需要很多方便的知识沉淀,包括但不限于:需求理解,培养业务sense,指标梳理、数据采集、落仓、数据探索、数据建模、调度配置、数仓上线、数据核对、数仓下线等等。

会搭建数仓不难,但是搭建一个规范的、高效的、高扩展的、低成本的数据仓库,绝对不是一件简单的事情。这既要知识面的宽度,更需要知识面的深度,当然少不了需要经验的积累。这里的经验就是多做项目,多踩坑,经过不断的总结和提升,你就能在新的项目和产品中少走一些弯路。

很多刚刚踏入数仓建设工作的技术人员,对数仓建设的整个生命周期没有一个全面的认识。因为工作经验尚浅,一般都是从事数仓建设的某个环节,例如只负责采集,或者只负责ODS落仓等等。这就限制了你的视野,拖慢了你前进的步伐,我们不能学盲人摸象,也不能管中窥豹。

废话不多话,先上大纲,看看数仓建设的整个生命周期是怎样的:

在这里插入图片描述
一:需求阶段

  • 需求承接
  • 产品设计
  • 产品输出物
  • 产品设计评审
  • 需求宣贯

二:指标管理

1、指标体系

  • 数据指标和指标体系的概念
  • 指标体系的意义
  • 指标管理容易出现的问题
  • 应对策略
  • 指标体系的组成
  • 如何定义数据指标
  • 指标体系管理工具

三:数据采集

  • 数据的来源
  • 采集方式
  • 采集机制:增量/全量
  • 采集工具
  • 采集常见的问题以及应对策略

四:数据建模

  • 数据建模的意义
  • 数据落仓
  • 数据探索
  • 维度建模
  • 数仓分层设计

五:节点开发

  • DDL定义
  • 统一维表和UDF自定义函数
  • 可扩展性
  • 调度配置
  • 调度测试

六:数据治理

  • 数据治理的概念
  • 数据治理的目标
  • 数据治理要做什么

七:数仓上线

  • 上线准备:数据字典、元数据字典、测试报告、运维手册、血缘图
  • 提交上线流程,将上线准备的文档作为流程的附件
  • 审核上线流程和附件
  • 执行上线操作

八:数据应用
数仓的指标结果数据,输出到关系型数据库或者直接调用数据中台的数据服务,可以供上层产品使用。例如:小程序、APP、PC报表、数据大屏等等。

九:数据运营
产品交付不是闭环,还需要运营,多与用户沟通,听取反馈意见,采用合理建议,优化产品
持续完善产品运营机制,提升产品对业务的响应效率。

十:数仓下线
当某些节点或者整个数仓不再使用的时候,为了避免资源浪费,为了清晰掌握哪些数仓在使用,哪些已经废弃。数仓开发人员需要走任务下线流程。说明:下线原因、下线内容、下线时间

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

十五楼亮哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值