【贪玩巴斯】数据仓库与数据挖掘(三)——「数据仓库的详解以及四大特点」 2021-10-12、10-19、10-26

1. 数据仓库:

      • 数据仓库
      • ——面向主题(为中心的目的进行服务,不管数据来自哪个角落的数据库,打破了不同数据库之间的界限),底层的数据库面向应用。
      • ——集成的
      • ——时变的
      • ——非易失的
        在这里插入图片描述

1.面向主题的 subject-oriented

  • 概念
    主题(Subject):特定的数据分析领域与目标
    面向主题:为特定的数据分析领域提供数据支持。
  • 与传统的差别:
    传统数据库中的数据是原始、基础的数据。
    特定分析领域数据是需要对他们做必要的抽取、加工总结而形成的。
  • 步骤
    抽取主题。确定每个主题所包含的数据内容

2.集成的 integerted

  • 概念
    分析需求服务需要不同的多个数据库,那么要从多个数据源中获取数据就包括多种类型数据库、文件系统以及Internet网上数据等。通过数据集成而形成数据仓库的数据。
  • 集成的主要方法
    • 统一:消除不一致的现象——数据清洗技术
    • 综合:对原有数据进综合(汇总和聚集)和计算
    • 清洗:在这里插入图片描述
      在这里插入图片描述
  • ETL
    • E —— extract
    • T ——transformation
    • L —— load
    • 数据的抽取转换加载
      在这里插入图片描述

- 补充

在这里插入图片描述

  • 数据更新(同步)
    • 全量更新增量更新两种
      • 全量:数据仓库在构建好时候,一次性按照主题全部数据都更新到数据仓库中(将相关数据批量更新到数据仓库),后面运维中只更新变化的数据。
      • 增量:只更新底层变化的数据到数据仓库。
        • CDC——变化数据捕获:changed data capture
  • 更新的方法
    • 快照比对
    • 日志(log)replay——insert delete updata 操作
      • 数据库要不断备份
    • 时间戳:给表定义时间戳(比较常用)
    • 应用系统

3.时变的(Time variant)

在这里插入图片描述

  • 分析的是:
    • 历史性的数据
    • 时间属性(同比、环比)

4.非易失的(None-volatile)

在这里插入图片描述

  • 流每秒的数据传输
  • 传统数据库中以写为主
  • 数据仓库以查为主,只做数据分析

2.数据仓库和数据库对比

数据仓库

  • OLAP:分析型DB
  • 面向主题
  • 反范式设计
  • 相对静态的
  • 查询为主
  • 一般不需要事务处理
  • 一般数据规模较大,套用资源较大
  • 存储的是历史数据
  • 数据仓库的数据是一些汇总的数据
  • 面向人群不同——面向的是管理分析人员

数据库

  • OLTP:事物型DB
  • 面向应用
  • 范式设计
  • 变化的
  • 增删改为主
  • 事务处理
  • 一般数据规模较小,套用资源较小
  • 存储的是当前数据
  • 数据库的数据是一些细节的数据
  • 面向人群不同——面向的是业务人员

图示

在这里插入图片描述
在这里插入图片描述

3.数据仓库的系统结构

在这里插入图片描述

  • ODS —— 操作性数据存储 operation Data store
    • 特点:
      • 面向主题的
      • 集成的
      • 存储当前的数据
      • 周期性变化的
      • 易失的

  • DM —— 数据集市管理 Data Mart
    • 面向一个或几个部门的数据仓库
      在这里插入图片描述
    • 数据集市分类:独立数据集市和从属数据集市

  • (E)DW —— 面向整个企业的数据仓库

  • 元数据 Meta Data
    • 关于数据的数据 data about data
    • 第一个数据:☝🏻 原始数据
    • 第二个数据:描述性的数据
      • 技术元数据
      • 业务元数据

4.数据库的体系化环境

在这里插入图片描述
在这里插入图片描述

5.数据仓库的数据模型

在这里插入图片描述
在这里插入图片描述

  • 数据仓库的数据模型
      • 是看用户的需求来决定
    • 概念模型————信息包图:系统边界、主题、维度、维度级别、度量与指标
    • 逻辑模型————星型模型——(派生出:雪花模型、星座模型)
    • 物理模型————====

  • 数据库的数据模型
    • 概念模型————ER模型
    • 逻辑模型————层次模型、网状模型→→关系模型
    • 物理模型————物理文件

1.概念模型(例子):

在这里插入图片描述
在这里插入图片描述

2.逻辑模型

在这里插入图片描述

  • 每一个维度(列)都用一个关系表来表示
  • 维度表
    • dim_date
      • id_date
      • year
      • quarter
      • month

    • dim_geo
      • id_geo
      • country
      • region
      • city
      • district
      • street

    • dim_prod
      • id_prod
      • cat1
      • cat2
      • prod

    • dim_age
      • id_age
      • age_group

  • 事实表
    • fact_sales
      • id_date
      • id_age
      • id_prod
      • id_age
      • id_sex
      • pred_sale
      • actual_sale
      • diff_sale

  • 叫做星型模型(Star Schema)
    在这里插入图片描述
  • 雪花模型
    在这里插入图片描述
    会在已有的维度表上,派生出新的维度表。
  • 星座模型例子
    在这里插入图片描述
  • 星座模型具有两个事实表(sales_face、shipper_fact销售和物流事实表)
  • 五个维度表
  • 维度表共享给了多个事实表
    在这里插入图片描述

6. 数据仓库中的数据组织

  • 多级数据
    在这里插入图片描述
  • 粒度
    数据综合程度高低的度量。
  • 粗粒度
    综合程度高,占用空间小,回答查询种类越少
  • 细粒度
    综合程度低,占用空间大,回答查询种类越多
    在这里插入图片描述
  • 例子:
    在这里插入图片描述
    在这里插入图片描述

7. 数据仓库的数据追加

  • 数据追加
  • 变化数据的捕获
    在这里插入图片描述

8. 分割

在这里插入图片描述

  • 例子:
    在这里插入图片描述
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

贪玩巴斯

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值