2022-01-04 迈向程序猿的第五十九步

目录一 数据仓库概述1.1 什么是数据仓库1.2 数据仓库的作用1.3 数据仓库的特征1.3.1 面向主题的特征1.3.3 非易失1.3.4 随时间不断变化1.4 数据仓库与数据库的区别1.5 OLTP与OLAP的区别二、数据仓库的架构2.1 两种不同的架构思想简介2.1.1 bill inmon提出的架构思想2.1.2 kimball 提出的架构思想​2.2 数据仓库如何分层2.2.1 分层的原因2.2.2 分层的价值2.2.3 如何分层
摘要由CSDN通过智能技术生成

目录

一 数据仓库概述

1.1 什么是数据仓库

1.2 数据仓库的作用

1.3 数据仓库的特征

1.3.1 面向主题的特征

1.3.3 非易失

1.3.4 随时间不断变化

1.4 数据仓库与数据库的区别

1.5 OLTP与OLAP的区别

二、数据仓库的架构

2.1 两种不同的架构思想简介

2.1.1 bill inmon提出的架构思想

2.1.2 kimball 提出的架构思想

​2.2 数据仓库如何分层

2.2.1 分层的原因

2.2.2 分层的价值

2.2.3 如何分层(重点)

2.3 数据仓库的开发命名规范

2.4 数据仓库的两种主流维度模型

2.4.1 星型模型

2.4.2 雪花模型

三、名次解释

3.1 维度

3.2 维度系数(基数)

3.3 度量

3.4 指标

3.5 事实表

3.6 ETL

3.6.1 E

3.6.2 T

3.6.3 L

3.7 数据仓库建模

3.7.1 概念说明

3.7.2 整个流程

3.7.3 数仓建模的步骤也可以总结如下:

四、案例演示:销售案例

4.1 数据源分析 

4.2 业务需求分析(指定指标)

4.3 平台的选择

4.4 设计逻辑模型

4.5 数仓建模实施

4.5.1 平台搭建、采集数据

4.5.2 数仓的构建


一 数据仓库概述

1.1 什么是数据仓库

数据仓库 (Data Warehouse) 是一个面向主题的 (SubjectOriented)、集成的 (Integrated) 、相对稳定的 (Non-Volatile) 、反映历史变化的 (Time Variant) 数据集合,用于支持管理决策(Decision Making Support) 和信息的全局共享(Global Sharing of Information)。 其主要功能是将组织透过资讯系统之联机事务处理 (OLTP) 经年累月所累积的大量资料, 透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理 (OLAP) 、数据挖掘 (Data Mining) 之进行,并进而支持如决策支持系统 (DSS) 、主管资讯系统 (EIS) 之创 建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境 变动,帮助建构商业智能 (BI)

1.2 数据仓库的作用

整合公司所有业务数据,建立统一的数据中心
产生业务报表,用于作出决策
为网站运营提供运营上的数据支持
可以作为各个业务的数据源,形成业务数据互相反馈的良性循环
分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果
开发数据产品,直接或间接地为公司盈利

1.3 数据仓库的特征

1. 数据仓库的数据是面向主题的
2. 数据仓库的数据是集成的
3. 数据仓库的数据是非易失的
4. 数据仓库的数据是随时间不断变化的

1.3.1 面向主题的特征

主题( Subject :特定的数据分析领域与目标。
主题是根据分析的要求来确定的。这与按照数据处理或应用的要求来组织数据是不同的。如在生产企业中,同样是材料供应,在操作型数据库系统中,人们所关心的是怎样更方便和更快捷地进行材料供应的业务处理;而在进行分析处理时,人们就应该关心材料的不同采购渠道和材料供应是否及时,以及材料质量状况等。 数据仓库是面向分析、决策人员的主观要求的,不同的用户有不同的要求,同一个用户的要求也会随时 间而经常变化,因此, 数据仓库中的主题有时会因用户主观要求的变化而变化的
面向主题划分如下:
数据仓库面向在数据模型中已经定义好的公司的主要主题领域。
典型的主题领域包括顾客、产品、订单和财务 或是其他某项事务或活动。
基本主题: 
教育机构:学生、讲师、班主任、课程等 
电商行业:运营、流量、价值、商品、市场、风控、销售等 
传统行业:供应商、商品、客户、仓库等
主题域
主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题 域。主题域的确定必须由最终用户和数据仓库的设计人员共同完成。 主题边界的划分应该按照以下规则来进行定义划分。 首先数据仓库中逻辑模型根据业务划分为多个主题域,主题域下面会涉及具体的实体表,维表以及关系实体,这 些划分可以按照下面规则来进行划分。 
a:每个主题域包含一个主要业务概念; 
b:每个主题域包含一个主要交易业务概念,用一个或几个核心实体来表述。 
c:主题域与主题域之间的核心实体不能重叠,核心实体间的关系实体则可以出现在两个主题域内; 
d:每个主题域中包含几个关键的核心实体,且这几个核心实体间具有直接的关联关系。 
主题域的另一种定义是:对某个主题进行分析后确定的主题的边界。分析主题域,确定要装载到数据仓库的主 题是信息打包技术的第一步。而在进行数据仓库设计时,一般是一次先建立一个主题或企业全部主题中的一部 分,因此在大多数数据仓库的设计过程中都有一个主题域的选择过程。主题域的确定必须由最终用户和数据仓 库的设计人员共同完成。

1.3.2 集成的特征

集成性是指数据仓库中数据必须是一致的。数据仓库的数据是从原有的分散的多个数据库、数据文
件和数据段中抽取来的,数据来源可能既有内部数据又有外部数据。
数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,因此
数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系统以及
Internet 网上数据等,它们通过数据集成而形成数据仓库中的数据。
集成的方法:
统一: 消除不一致的现象
综合: 对原有数据进行综合和计算
集成需要考虑的问题:
数据格式
计量单位
数据代码含义混乱
数据名称混乱

1.3.3 非易失

数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,
行的主要是 查询 操作,一般情况下不执行 更新 操作 。同时,一个稳定的数据环境也有利于数据分
析操作和决策的制订。
面向应用的事务数据库需要对数据进行频繁的插入、更新操作,而对于数据仓库中数据的操作 仅限
于数据的初始导入和记录查询

1.3.4 随时间不断变化

数据仓库以维的形式对数据进行组织, 时间维是数据仓库中很重要的一个维度
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值