![](https://img-blog.csdnimg.cn/20201014180756724.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据仓库
数据仓库
yunhao.wei
这个作者很懒,什么都没留下…
展开
-
数据倾斜解决方案
第一种情况问题描述:上游表文件的大小特别不均匀,而且小文件特别多,导致当前表Map端读取的数据分布不均匀,引起长尾第一种情况解决方案:读取的时候合并小文件,尽量做到读取文件大小差不多第二种情况问题描述:Map端做聚合时,就是combine操作的时候读取文件的某个值特别多而引起长尾第二种情况解决方案:用distribute by rand() 来打乱数据分布,访问读取某一个key的数据过多。原创 2023-04-20 22:47:52 · 449 阅读 · 0 评论 -
数据指标体系命名规范
原子指标定义原子指标 = 单一业务修饰词+基础指标词根,例如:支付金额-payment_amt命名规范派生指标定义派生指标 = 多业务修饰词+基础指标词根,派生指标继承原子指标的特性,例如:T+180体系课商品复购率,其中T+180是时间修饰词、体系课复购是业务修饰词、比率是基础指标词根命名规范日期类指标命名规范命名时要遵循:业务修饰词+基础指标词根+聚合修饰词(日期修饰词)。将日期后缀加到名称后面,如下图所示:聚合类型指标命名规范命名时要遵循:业务修饰词+基础指标词根+聚原创 2020-12-17 16:05:24 · 4241 阅读 · 0 评论 -
数据主题域划分
作用:对公司所有的业务过程进行归纳汇总后,总结出公司所有的主题域,并且也能清晰的知道公司的所有业务模块有助于建模人员和运营人员对了解公司业务情况有利于在进行模型设计时,根据主题域和业务过程设计表,做到看到一个表名就知道他真正的业务含义以下主题域仅供参考:...原创 2020-12-17 15:57:14 · 4626 阅读 · 1 评论 -
表命名规范参考
数据库和数据仓库的区别1、数据库是物理库,是数据仓库的载体2、数据仓库就是一套表3、Hive和关系型数据库都可以作为数据仓库的载体4、数据库设计的是做技术的,数据仓库的设计是做业务的数据仓库的库设计bdp_ods:存储原始数据bdp_dw:存储汇总和分析数据bdp_dm_user:数据集市中user库bdp_dm_site:数据集市中site库bdp_dm_device:数据集市中device库数据原创 2017-12-25 14:04:05 · 2902 阅读 · 0 评论 -
维度建模和ER模型的对比
从业务角度出发来考虑ER模型是用实体加关系描述的数据模型描述企业业务架构,在范式理论上符合3NF,是以业务功能为出发构建数据模型,而不是针对某个具体业务流程的,面向功能性模块开发。维度建模以分析决策的需求为出发点构建模型,一般有较好的大规模复杂查询的响应性能,更直接面向业务,典型的代表是我们比较熟知的星形模型,常用就是事实表关联很多维度表、退化维度形成宽表、根据某主题下的业务过程进行建模,往往是维度建模友好度更高,面向分析式模型开发。从易用性和交付效率方面来考虑ER模型是规范性好、冗余少、但..原创 2020-12-17 14:58:37 · 3620 阅读 · 1 评论