数仓面试题自我总结

最新推荐文章于 2024-06-27 09:00:51 发布

很菜的小周

最新推荐文章于 2024-06-27 09:00:51 发布

阅读量256

点赞数

文章标签：数据仓库

本文链接：https://blog.csdn.net/qq_45810187/article/details/129776084

版权

文章介绍了数据仓库的分层结构，包括ODS层、DWD层、DWS层、DWT层和ADS层的作用，强调了数据分层对于简化数据清洗、解耦合、统一数据口径的重要性。同时，提到了根据业务复杂度选择不同分层场景，并列举了数据插入仓库的几种方式，如LOADDATA、INSERT...SELECT和SQOOP等。

摘要由CSDN通过智能技术生成

1、数据仓库分层

ODS层（原始数据层）：
用于存放原始数据，数据不做任何修改，所以这相当于起到一个备份作用。因为在数仓建设当中，数据是最重要的，宁可多费一些磁盘空间，也要保证数据的完整性。所以即使ODS层下面所有层的表数据都没了，也是没有关系的，因为只要有ODS层在，其余所有层的数据都可以重新生成，因为它们归根结底都是建立在ODS层之上进行相关操作得到的。

DWD层（数据明细层）：
负责对ODS层数据进行清洗，因为原始数据可能会包含大量的脏数据，是不能直接用的，再加上DWD下面的层是用来分析指标的，因此在这一层要确保所有数据都是正常可用的。而这一步业界也有一个专们的岗位叫ETL，而用于ETL的工具一般有Hive SQL、MapReduce、Spark SQL、Python、kettle、Informatica等等。但是注意: 在清洗的过程中，表的结构和粒度与ODS层是一致的，比如ODS层的表是以"星期"为粒度来统计用户的下单次数，那么DWD层也应该以"星期"为粒度。
关于粒度，可以从细到粗、但无法从粗到细。比如当前粒度是"星期"，可以通过汇总的方式将粒度从"星期"变成"月"，但是显然我们无法将"星期"分解成"天"。

DWS层（数据汇总层）：
对DWD层数据进行轻度汇总，基本上是按天汇总。比如用户每下单一次，DWD层就会有一条记录；每评价一次、每点赞一次、每收藏一次，在DWD层都会各自对应一记录。所以DWS层一般会按照天来进行汇总，求出每个用户在每一天内总共下单多少次、点赞多少次、收藏多少次等等。所以本质上，就是将一张高表通过聚合、以及行转列的方式变成宽表。

DWT层：
对DWS层按照主题进行汇总，比如获取某个用户从创建以来直到现在，总共下单多少次。（有的数仓会有这层，有的没有，一般大型数仓层数较多，小型数仓层数较少）

ADS层（数据应用层）：
这一层就是负责提供报表数据了，比如：日活跃用户、日交易额等等我们可以从DWS层来统计相关指标；因此我们看到ADS层的数据可以来自于DWS、也可以来自于DWT，但是很少有来自于DWD层，因为这不符合数仓的建设规范。数仓的每一层都有它自己的规范，数据该从哪一层获取也有相应的规范，我们应该严格遵循。可能碰巧从ODS层来的数据比较干净、加上结构比较简单，我们从DWD层进行统计也能得到ADS层需要的数据，但即便如此也不要这么做，还是那句话，这不符合数仓的建设规范。

在分层中可能还会出现DM(Data Market 数据集市)层，一般是在大企业中会出现，因为数据集市是部门级别，他给某个局部范围内的管理人员提供服务，可以认为：多个数据集市构成数据仓库。