数据仓库——数据分层基础总结

马小胖测试历险记

于 2021-01-18 14:23:26 发布

阅读量1k

点赞数 2

分类专栏：大数据测试文章标签：数据仓库大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35779794/article/details/112768711

版权

大数据测试专栏收录该内容

24 篇文章

订阅专栏

一、什么是数据仓库、数据为什么要分层

1、数据仓库：数据仓库是一个面向主题的，集成的，相对稳定的，反映历史变化的数据集合，用于支持管理决策

2、为什么要分层？

清晰数据结构：每个数据分层都有它的作用域和职责，在使用表的时候能更方便的定位和理解
减少重复开发：规范数据分层，开发一些通用的中间层数据，能够减少极大的重复计算
统一数据口径：通过数据分层，提供统一的数据出口，统一对外输出的数据口径
复杂问题简单化：将一个复杂的任务分解成多个步骤来完成，每一层解决特定的问题

二、数据仓库分层介绍

1、数据仓库基本分层架构图

2、ODS层：原始数据层

数据来源可能是通过Flume监控、Sqoop导入

Flume可以定义拦截器，进行数据ETL

Sqoop可以通过sql语句，进行数据ETL

所以一般ODS层存放的是ETL之后的原始数据，在业务系统和数据仓库之间形成一个隔离层，保存的是原始数据，或者ETL之后的数据

3、DWD：数据明细层

1）、提供所有数据类型数据支持的战略集和，是一个包含所有主题的通用的集合，对ods层数据进行再次清洗（去空、去脏数据、去超过极限的数据）

2）、调整压缩算法，存储格式

Hive存储格式：TEXTFILE 、SEQUENCEFILE、ORC、PARQUET，前面两种是行式存储，后面两种是列式存储。在dw层我们希望文件格式是解压和压缩速度快，用来提高查询速度，一般选择Snappy+（orc/parquet）

4、DWM：数据中间层，在DWD层的基础上，对数据做轻度的聚合操作，生成一系列的中间表，提高公告指标的复用性，减少加工，对核心维度进行聚合操作，算出相应统计的指标

5、DWS：数据服务层

又称数据集市或宽表。按照业务划分，如流量、订单、用户等，生成字段比较多的宽表，用于提供后续的业务查询，OLAP分析，数据分发等。

一般来讲，该层的数据表会相对比较少，一张表会涵盖比较多的业务内容，由于其字段较多，因此一般也会称该层的表为宽表。

在实际计算中，如果直接从DWD或者ODS计算出宽表的统计指标，会存在计算量太大并且维度太少的问题，因此一般的做法是，在DWM层先计算出多个小的中间表，然后再拼接成一张DWS的宽表。由于宽和窄的界限不易界定，也可以去掉DWM这一层，只留DWS层，将所有的数据在放在DWS亦可。

6、数据应用层：App层

主要是提供给数据产品和数据分析使用的数据，一般会存在ES、PostgreSql、Redis等系统中供线上系统使用，也可能存在Hive中供数据分析和数据挖掘使用，比如我们常说的报表数据，一般就放在这里

7、DIM层（维度层）

维度层一般包含两部分数据

高基数维度数据：一般是用户资料表、商品资料表类似的资料库，数量级可能是千万级或者亿万级
低基数维度数据：一般是配置表，比如枚举值对应的中文含义，或者日期维度，数量级可能是个位数或者几千几万

马小胖测试历险记

博客等级

码龄9年

70
原创

53
点赞

248
收藏

53
粉丝

关注

私信

热门文章

分类专栏

最新评论

Jmeter导入jmx文件报错CannotResolveClassException: kg.apc.jmeter.perfmon.PerfMonCollector 解决办法
m0_72012052: 放到ext目录下还是报一样的错，不是提升install怎么办
一起学Python-Day01-练习题
dadachun: 第2道题答案找到了，import math for i in range(10000): # 转化为整型值 x = int(math.sqrt(i + 100)) y = int(math.sqrt(i + 268)) if(x * x == i + 100) and (y * y == i + 268): # 如果一个数的平方根的平方等于该数，这说明此数是完全平方数 print(i)
Python自动化测试----Python基础知识掌握
vegetable_plus: # 6、切片：能够输出从特定位置到列表末尾的所有元素，根据索引 number_list=['one','two','three','four'] print(number_list [-2:]) # 运行结果：['three','four'] number_list=['one','two','three','four'] new_list=number_list[:] print(new_list) """ ['one', 'two', 'three', 'four'] """ number_list=['one','two','three'] print(new_list) """ ['one', 'two', 'three', 'four'] 这说明new_list变量的地址值不同""" 您好大佬，第六的不能复现，是python版本问题，还是我测试代码有问题。
Python自动化测试----Python基础知识掌握
m0_67210871: 你好我想问一下我的电脑不知道为什么下载不了Excel的函数为什么呢
Jmeter导入jmx文件报错CannotResolveClassException: kg.apc.jmeter.perfmon.PerfMonCollector 解决办法
hendtbao: 还真解决了，谢谢楼主

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。