数据仓库分层的原因多维数据模型元数据技术

最新推荐文章于 2024-08-01 11:00:00 发布

韩梦飞沙S

最新推荐文章于 2024-08-01 11:00:00 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/u010859025/article/details/81158981

版权

数据仓库通常分为ODS、PDW、MID和APP层，用于数据集成和分析。多维数据模型支持OLAP，提供多维度查询。元数据管理涉及数据字典和任务监控。技术上，使用Flume、Sqoop、Kafka、SparkStreaming、Redis、SparkMLlib和Kylin等工具。操作型数据库（ODS）与数据集市（DM）在数据清洗、格式转换和存储期限上有区别，主要服务于不同的业务需求。

摘要由CSDN通过智能技术生成

韩亚飞_yue31313_韩梦飞沙 QQ:313134555

数据仓库分层的原因

编号	要点	描述
1	提高效率	通过数据预处理提高效率，因为预处理，所以会存在冗余数据
2	应对变化	如果不分层而业务系统的业务规则发生变化，就会影响整个数据清洗过程，工作量巨大
3	逻辑清晰	通过分层管理来实现分步完成工作，这样每一层的处理逻辑就简单了

标准的数据仓库分层：

编号	分层	分层	描述
1	ods	临时存储层	它和源系统数据是同构的，而且这一层数据粒度是最细的，这层的表分为两种，一种是存储当前需要加载的数据，一种是用于存储处理完后的数据。
2	pdw	数据仓库层	它的数据是干净的数据，是一致的准确的，也就是清洗后的数据，它的数据一般都遵循数据库第三范式，数据粒度和ods的粒度相同，它会保存bi系统中所有历史数据
3	mid	数据集市层	它是面向主题组织数据的，通常是星状和雪花状数据，从数据粒度讲，它是轻度汇总级别的数据，已经不存在明细的数据了。
4	app	应用层	数据粒度高度汇总，倒不一定涵盖所有业务数据，只是mid层数据的一个子集。