数据集市层面重构的一些再补充

最新推荐文章于 2024-04-28 01:03:19 发布

翟工的分享空间

最新推荐文章于 2024-04-28 01:03:19 发布

阅读量401

点赞数 1

分类专栏：数据仓库

本文链接：https://blog.csdn.net/weixin_39471936/article/details/104572244

版权

9 篇文章 0 订阅

订阅专栏

表结构——在非必要情况下，尽可能不对表结构和字段名称进行更改。最大限度对下游使用无感知，以达到重构成本最低。
字段命名——除去命名极其不规范，或对下游极易造成歧义的字段命名，应在重构时进行更改。
注释——在重构前，如有注释不清楚，容易造成歧义，应重新修改备注，同时在重构的脚本中完善取值逻辑备注，以便后续迭代。
业务本身——从业务角度出发，将每个画像按照分为点评侧与美团侧，之后再进行细分，以达到业务逻辑梳理明确，方便后续迭代等。
中间表——对原有众多的中间表。如下游使用仅仅是本画像，可省略该中间表，减少计算和存储资源。
尽量保留全量的商户——由于画像（数据集市），是对下游很多的应用和OLAP分析的出口，所以没有特殊情况，务必保留全量的商户，不要去where里加限定条件，务必保证复用性最大化。

少用union all——旧画像中存在大量union all，再group by。这不但会使后续迭代维护困难，且这会导致数据量激增，造成有数据倾斜风险。
少用子查询——尽可能减少MapReduce任务。所以能够在一个查询里面进行判断计算出的结果，不要写子查询。
减少where条件——若非必要，不要在where条件，将判断条件写在select中的字段里，case when去做判断。减少MapReduce任务，省去不必要的开销。达到资源优化最大。
最后关联维度表——不管有几张中间表，最后写入结果表时，再去关联维度表（比如在此次重构过程中，最后再去关联商户维度表），从而不管是在优化上，还是后续迭代维护，都是方便很多。
合并小文件——小文件一多，会对NameNode的压力激增，导致无用的资源浪费。

在这里插入图片描述

关注