数仓类项目走过的坑

其实我是程序员

已于 2022-02-08 16:03:17 修改

阅读量1.5k

点赞数 3

分类专栏：数据仓库文章标签：数据仓库 big data 大数据

于 2021-06-24 18:24:26 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sbcsdn2015123/article/details/118193982

版权

数据仓库专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1.SQL遇到NULL值容易导致各种问题，应考虑ODS层以上数据表字段的空值处理规则。比如维度属性默认设置为-1，度量字段默认为0.
若觉得范围太大，最起码日常分析的维度属性、度量值要考虑空值的处理。

2.金额等数字小位数要尽量多预留，避免加工汇总的金额与明细存在尾差较大的问题。

3.不要相信上游系统的数据质量，各种你想象不到的数据质量问题。应在开发阶段或之前，进行生产数据的探查，了解各字段的数据分布情况、各属性枚举值、空值情况，做对应处理。异常值的处理方案需要业务确认。
同时有必要引入自动数据质量检查机制，针对关键性、重要数据进行检查、发现后告警或者自动修正。

4.ODS数据源层数据保持与上游一致，便于后续粗粒度数据的核对、数据溯源、以及应对后续各种新需求。特殊情况：采用拉链表保存历史数据。

5.数据明细层(DWD)务必保持最细颗粒度，应默认包含全部数据，谨慎剔除字段或记录(如失败交易也有分析价值)。此层封装逻辑的加工，数据一致性处理(如统一客户号格式、统一维度属性)，为后续各层提供统一数据视图。

6.数据仓库建模之前，需要充分了解业务日常分析需求，分析痛点，可采用分析业务日常报表、面谈、及熟悉源系统业务。缺乏业务视角的数据模型通常失败。

7.数据仓库最核心的是数据模型，良好的模型设计易于扩展、解耦，可避免数据重复加工、数据不一致性、性能低下等问题。建议DWD/DWS/DIM的模型设计必须由架构师/高等级人员审核。

8.宽表可以减少表之间的关联，但若设计不当，反而影响性能。
比如上亿级别的宽表，把小维度表的维度属性过多放入宽表，导致宽表越来越大，性能还不如关联小微表。

9.遵守数仓分层建模规范，可以避免很多坑，理论指导实践，同时结合实际。

其实我是程序员

关注

3
点赞
踩
19

收藏

觉得还不错? 一键收藏
5
评论
数仓类项目走过的坑

1.SQL处理中NULL值容易导致各种问题，应考虑ODS层以上数据表字段的空值处理。比如维度属性默认设置为-1，度量字段默认为0.若觉得范围太大，最起码日常分析的维度属性、度量值要考虑空值的处理。2.不要太相信上游系统的数据质量，各种你想象不到的数据质量问题。应在开发阶段或之前，进行生产数据的探查，了解各字段的数据分布情况、各属性枚举值、空值情况。做对应处理。异常值的处理方案需要同步业务。3.ODS数据源层数据保持与上游一致，便于后续粗粒度数据的核对、数据溯源、以及应对后续各种新需求。识别
复制链接

扫一扫

专栏目录

其实我是程序员 CSDN认证博客专家 CSDN认证企业博客

码龄9年

20: 原创

21万+: 周排名

93万+: 总排名

2万+: 访问

: 等级

251: 积分

2: 粉丝

11: 获赞

9: 评论

73: 收藏

私信

关注

热门文章

分类专栏

大数据 2篇
数据仓库 4篇
Oracle 1篇

最新评论

数仓类项目走过的坑
黑眼圈@~@: 认同没有100%的标准化。但有些问题，是可以提前考虑到的。就比如这个null值设计，缺陷太明显了。容易让别人踩坑。
数仓类项目走过的坑
其实我是程序员: 没有100%的标准化，允许有些特殊字段值的
数仓类项目走过的坑
黑眼圈@~@: 如果根据业务场景的话，数据质量就有问题了。整个数仓的null值标准化就不统一了。
数仓类项目走过的坑
其实我是程序员: 是要考虑某些场景，结合字段业务含义选取默认值或者保持原样
数仓类项目走过的坑
黑眼圈@~@: null值处理，度量值直接给0不合适吧。如果一个字段是优惠后价格，天有条数据优惠后价格为0。那这条数据就模糊了。价格是0还是价格是null？

大家在看

最新文章

目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。