一、数据仓库基础理论

一、数据仓库

1、概念

数据仓库(Data Warehouse, DW):一个面向主题的、集成的、非易失的、反应历史变化的、用来支持企业管理决策的数据集合。

2、数据仓库分层结构

缓冲层、贴源层、基础明细层、数据服务层、集市层
在这里插入图片描述

在这里插入图片描述

贴源层ODS: 业务系统数据的集合;
基础明细层DWD层:基于ODS层,进行统一范式建模,规整基础数据;

在这里插入图片描述
数据中间层(DWM层):对一些基础指标进行汇总;
数据服务层(DWS层):以企业视角,建立多个主题域模型;
数据集市层(DM层):为特定主题提供定制化服务;

3、为什么要分层
  • 复杂问题简单化:每层的职责明确;
  • 减少重复开发:规范数据分层,减少重复计算量,增加计算结果的复用性;
  • 隔离原始数据:使真实数据与最终统计数据解耦;
  • 空间换时间:通过大量的预处理来提升系统的用户体验、分析效率;

二、数据集市

数据集市:是一个针对某个主题、某个部门或者某些特殊用户而进行分类的数据集合,也称为“小数据仓库”或“部门级数据仓库”

  • 满足特定部门或用户需求;
  • 能够聚焦特定主题;
  • 统一的高质量数据;
  • 数据仓库的子集;

独立型数据集市(自下而上开发):先做独立的数据集市,当达到一定规模后,再从各个数据集市进行数据的整合建立企业级的数据仓库。

  • 不能以全局视角分析数据,可能产生大量冗余数据
  • 搭建快,成本低

从属型数据集市(自上而下开发): 先建立企业级数据仓库,然后从数据仓库中为各个部门抽取必要的数据建立部门级的数据集市。

  • 可提高数据分析的质量
  • 体系结构更稳定
  • 实施周期长、难度大、风险高

在这里插入图片描述

三、数据湖

1、数据湖和数据仓库

数据湖的核心是:提供一个统一的数据存储模式。

数据湖主要提供一个统一的数据存储模式,分析类应用(数据中台、数据仓库)可以在其基础上搭建。

狭义的数据湖只是一种底层的数据存储模型,而广义的数据湖包括了数据集成,数据治理,数据处理与分析,数据挖掘,安全管控,质量检验等。

在这里插入图片描述

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据仓库项目实战 pdf 是介绍数据仓库项目实施过程与经验的一本书籍。在这本书中,作者从理论基础到实践操作都进行了详细的阐述,使读者能够深入了解数据仓库项目的实施流程和关键要素。 首先,该书介绍了数据仓库项目的概念和背景,解释了数据仓库的作用和优势。它还介绍了数据仓库项目的整体架构和基本原则,包括数据采集、集成、清洗、转换和加载等步骤,以及数据仓库的模型设计和构建方法。 其次,该书详细讲解了数据仓库项目实施的关键要素和技术工具。它介绍了数据仓库项目团队的组织与管理,以及项目计划和进度控制的方法。它还提供了一些常用的数据仓库技术工具和平台,如ETL工具、数据挖掘工具和分析报告工具等,帮助读者选择合适的工具来支持数据仓库项目的实施过程。 最后,该书结合实际案例和项目经验,分享了一些数据仓库项目实施中的注意事项和解决方案。它介绍了一些常见的问题和挑战,如数据质量问题、数据安全问题和性能优化问题等,以及相应的解决方法。它还分享了一些成功的案例和最佳实践,以供读者参考和借鉴。 总的来说,数据仓库项目实战 pdf 是一本实用性很强的书籍,它全面介绍了数据仓库项目的实施过程和关键要素,为读者提供了一个指导和参考的框架,帮助他们顺利完成数据仓库项目的实施工作。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值