目录
第一章 决策支持系统的发展
1.1 演化
1.1.1 直接存取储存设备的出现
磁盘储存器/DBMS/OLTP
1.1.2 个人计算器/第四代编程语言技术
PC/4GL
1.1.3 进入抽取时代
搜索文件或数据库,将符合标准的数据抽取到指定位置
1.1.4 蜘蛛网
数据源/口径/算法/数据
1.2 自然演化式体系结构问题
数据可信性/生产率问题/无法将数据化为信息
1.2.1 数据缺乏可信性
数据源/口径/算法/层次 导致数据Diff
1.2.2 生产率问题
信息访问成本高,无法有效复用,建立数仓的时间长
1.2.3 从数据到信息
没有将不同主题集成数仓、不同主题的TTL不同
1.2.4 方法变迁
体系结构变化(导出数据/原始数据)
(1.2.5 体系结构化环境
操作层 -> 原子/数据仓库层 -> 部门层 -> 个体层
ODS -> DWD -> DWM/DM -> APP (即OLAP与OLTP的转化)
1.2.6 体系结构化环境中数据集成
ETL(抽取/转换/装载) -> 集成
1.2.7 用户是谁
分析和线上数据分离
1.3 开发生命周期
数据集成 -> 数据校验 -> 数据抽象 -> 数据分析 -> 交付目标
1.4 硬件利用模式
OLAP查询与流队列偏稳定,离线队列非常不稳定,混部队列必然会不稳定。
1.5 为重建工程创建条件
操作型环境与数据仓库环境分离
1.6 监控数据仓库环境
储存、计算、任务、表、数据、查询
第二章 数据仓库环境
2.1 数据仓库的结构
早期细节级(ODS) -> 当前细节级(DWD) -> 轻度综合数据级(DWM/DM) -> 高度综合数据级(APP)
2.2 面向主题
横向通过不同主键将主题域连接
2.3 第1天到第N天的现象
ETL -> 集成 -> 集市 -> 分析/报表/挖掘
2.4 粒度
2.4.1 粒度带来的好处
- 重用性:不同主题域的复用
- 灵活性:灵活使用高低粒度数据
- 权衡性:可丢失部分细节,保存更多的时间
2.4.2 粒度的例子
低粒度数据灵活、高粒度压缩数据
2.4.3 双重粒度
平衡灵活和储存——双重粒度。即将数据进行轻汇总
2.5 探查与数据挖掘
数据集市支撑报表、分析、挖掘
2.6 活样本数据库
个人理解即用户分群存表和抽样统计表
2.7 分区设计方法
好处:装载、访问、存档(快照)、删除、监控、储存
分区标准:时间、业务、地理、组织(粗粒度)
2.8 数据仓库的数据组织
简单堆积数据、轮转综合数据、简单直接文件(快照)、连续文件
2.9 审计与数据仓库(无意义)
2.10 数据的同构/异构
异构:以主题域、表数据在表中的出现来组合成不同的应用结果
2.11 数据仓库中的数据清理
“数据根本没有被清楚,而是上升到更高综合级。”低粒度清除、高粒度保存
2.12 报表与体系结构化环境
操作型报表 <-> 数据仓库报表
2.13 各种环境中的操作型窗口
不同主题域、不同表、不同数据的TTL不一样
2.14 数据仓库中的错误数据报表
实践:修复Bug -> 回溯数据
第三章 设计数据仓库
3.1 从操作型数据开始
从操作型环境到数据仓库的装载工作:
- 装载档案数据
- 装载在操作型系统中的现有数据
- 将一个周期中操作型系统中更新的数据装载到数据仓库中。(时间戳、增量文件、事务日志、对比快照)
3.2 数据过程模型与体系结构化环境
过程模型只适用于操作型环境,数据模型适用于两种
根本原因在于建立数据仓库时需求并不明确
3.3 数据仓库与数据模型
数据属性稳定性分析(更改频率)
3.3.1 数据仓库的数据模型
三个层次的数据模型:高层建模(实体关系ERD)、中间层建模(数据项集DIS)、底层建模(物理模型)
3.3.2 高层建模
确定集成范围,即实体边界(主题域)
3.3.3 中间层数据模型
将主题与或实体拓展成为中间模型
中间层数据模型的四个基本构造:
- 主要数据分组:主题域中只存在一次的属性
- 二级数据分组:主题域可以存在多次的属性
- 连接器:两个主题域之间之内的数据关系
- 类型:不同类型数据对应不同的数据
3.3.4 物理数据模型
拓展中间层模型使之包含关键字和物理特征,形成关系表(物理模型)
过程中考虑IO应进行分区分字段
3.4 数据模型与迭代式开发
迭代开发产生内聚的、高度和谐的共生体
3.5 规范化/反向规范化
关系表中属性的合并和分离(宽表和专用表)
3.6 元数据
元数据增加数据仓库利用率,可理解为数据仓库的轻量级快照,便于管理
3.7 数据周期-时间间隔
指从操作型环境变化到数据仓库中变化的周期。通常为(天/小时/分钟)
3.8 转换和集成的复杂性
ETL过程中清洗、转换、归一、编码等处理
3.9 数据仓库记录的触发
事件-快照交互
2.9.1 事件
业务活动产生事件/时间产生的事件
2.9.2 快照的构成
事件单元/关键字/数据
3.10 概要记录
即通过主键进行轻量级别的聚合
3.11 管理大量数据
小步迭代、备用储存(冷备)
3.12 创建多个概要记录
相同细节可以创建多个概要记录
3.13 从数据仓库环境到操作型环境
多用于服务端查询服务使用
3.14 数据仓库数据的直接访问
用途最广泛的例子
3.16 数据仓库数据的简介使用
生产分析结果小文件、提供给线上使用
3.17 星型连接
规范化:灵活性、粒度化、分离性
规划星型连接可以进行多维连接使用
3.18 支持操作型数据存储
直接分析ODS数据
3.19 需求和Zachwam框架
第四章 数据仓库中的粒度
合理的粒度是是设计数据仓库的关键
4.1 粗略估算
根据数据行数和行数据大小估计数量级别,进而反推轻聚合粒度
4.2 规划过程的输入
粗估数量级即可,不需要精确
4.3 溢出储存器中的数据
个人理解:区分主备储存做冷备(成本、灵活)
4.4 确定粒度级别
根据业务合理推断、循环反馈、满足需求
4.5 一些反馈循环技巧
深入了解业务、汇总各方需求、研究数据、合理规划
4.6 填充数据集市
根据数仓架构和粒度开始逐层填充数据
第五章 数据仓库技术
5.1 管理大量数据
所用技术一定要同时满足容量与效率的要求
5.2 管理多种储存介质
分布式系统屏蔽底层介质,统一进行数据使用管理
5.3 索引和监控数据
索引:库、表、分区、分桶、属性、索引等
5.4 多种技术的接口
接口必须在批模式下运行(方便即时分析使用)
5.5 程序员/设计者对数据存放位置的控制
经常性调整数据的物理存储位置
5.6 数据的并行储存和管理
分布式并行提升储存和管理效率
5.7 语言接口
数据仓库应该支持丰富的语言标准接口
5.8数据的有效装载
两种方式:
- 一次载入一条记录
- 在数据装载前先进行缓冲处理
5.9 有效粒度用索引
位图、多级索引、装入内存、可压缩位图
5.10 数据压缩
数据压缩提升ID效率,便于储存和查询
5.11 符合主键
复合主键充分利用数据的时变性(没懂)
5.12 变长数据
技术支持变长数据特征,实务中放入extra的Map中储存
5.13 加锁管理
在数仓中被快照取代,锁主要用户OLAP中
5.14 只涉及索引的处理
5.15 快速恢复
5.16 其他技术特征
事务、告诉、表行锁、视图(数据湖、OLAP)
5.17 DBMS类型和数据仓库
5.18 改变DBMS技术
5.19 多维DBMS和数据仓库
5.20 在多种介质上构建数仓
5.21 数据仓库环境中元数据的角色
5.22 上下文和内容
5.23 刷新数据仓库
5.24 测试问题
第六章 分布式数据仓库
6.1 分布式数据仓库类型
包括:局部数据仓库和全局数据仓库
分为:业务分布式、技术分布式、演进分布式
6.1.1 业务分布式
标准总分结构(专注业务和中心集控)
局部数仓:包含分值有意义的数据
全局数仓:设计整个企业的分支组织,是企业级的集成
局部数据进入全局时要进行转换集成,二者相辅相成为业务服务
6.1.2 技术分布式数据仓库
低成本、搞拓展、灵活使用
6.1.3 独立开发的分布数据仓库
多个数仓协调开发
6.2 开发项目的本质特征
完全分离的多个主题域同时开发
多个业务方开发同一个数仓不同主题域
多个业务方同时开发一个数仓不同层
多个业务方同时开发同一个数仓。
注意:完全无关的数仓在上层也可以集成中台(财务)
6.3 分布式数据仓库的开发
6.3.1 在分布的地理位置间协调开发
6.3.2 业务数据的分布式模型
6.3.3 分布式数据仓库的元数据
6.4 在多种层次结构上构建数据仓库
6.5 多个团队建立当前明细级
注意:容易出现重叠、冗余、蛛网问题
6.6 公共细节数据采用多种平台
第七章 主管信息系统和数据仓库
7.1 EIS概述
即商业BI,有趋势分析、指标度量、向下钻取分析、问题监控等(OLAP引擎 + 报表看板)
7.2 EIS例子
EIS用于趋势和比较分析
7.3 向下钻取分析
汇总数据按维度下钻(归因分析)
7.4 支持向下钻取处理
即支持灵活聚合,支持下钻行为
7.5 作为EIS基础的数据仓库
建立完善维度+指标明细表供EIS下钻
7.6 到哪里取数据
应用不同主题域集市数据
7.7 事件映射
即重大行为记录,支持下钻到轻汇总明细层
7.8 细节数据和EIS
权衡成本与收益
7.9 在EIS中只保存汇总数据
第八章 外部数据与数据仓库
8.1 数据仓库中的外部数据
外部数据有可用频率、完全没有规则、不可预测。当有需求时被放入数仓
8.2 元数据与外部数据
外部数据放入数仓款应该打上一些标记
8.3 储存外部数据(成本、重复、浪费)
8.4 外部数据的不同部件
8.5 建模与外部数据
外部数据不可塑,用主键和模型连接
8.6 辅助报告
与数仓数据比对分析
8.7 外部数据存档
外部数据过生命周期需要丢弃或存档
8.8 内部数据与外部数据比较
注意:需同主键对比分析
第九章 迁移到体系结构化环境
9.1 一种迁移方案
起点是一个以内在方式建立起来的企业数据模型
主题域、主题、主键、属性集(中间层)
定义记录系统在设计数仓,规律装载
9.2 反馈循环
分析、整理、反馈、建议,不断的优化迭代数据模型
9.3 策略方面的考虑
影响分析、资源估计、信息系统管理考虑
9.4 方法和迁移
螺旋式开发方法
9.5 数据驱动的开发方法
9.5.1 概念
即抽象、重构、优化
9.5.2 系统开发生命周期
开始于数据,结束于需求
第十章 数据仓库和Web
业务数据库、点击流日志
埋点上报储存 -> ETL清洗转换落表 -> 轻粒度聚合汇总入库
10.1 支持电子商务环境
埋点管理、储存日志
10.2 将数据从Web移动到数据仓库中
过滤、清洗、编辑、转换(ETL)
10.3 将数据从数据仓库移动到Web
延时不同(天级、小时级、实时)
10.4 对Web的支持
存储、集成、性能
第十一章 非结构化数据和数据仓库
非结构化数据指不存在格式、记录和关键字的数据。可分为:通信信息和文档信息
11.1 两个领域集成
11.1.1 文本-公共连接
基于文本间进行原始匹配
11.1.2 基本错误匹配
原始匹配存在错误:混乱结果
11.1.3 环境间文本匹配
删除停顿词,将单词约减成词干
11.1.4 匹配概率
在一定环境属性中进行匹配
11.1.5 匹配所有信息
匹配值越多,匹配强度越大
11.2 主题匹配
11.2.1 产业特征主题
根据产业主题有关词语进行分析,若非结构数据匹配主题则加以标示
11.2.2 自然事件主题
查看赐予出现次数和频率来建立文档主题
11.2.3 通过主题和主题词关联
通过主题文档形成数据与结构化环境连接
11.2.4 通过抽象和元数据关联
抽象出现数据集成入数据仓库
11.3 两层数据仓库
11.3.1 非结构化数据分类
非结构数据分为:非结构化通信信息、文档信息
通信根据标识符组织、抽象词语和主题落库
11.3.2 非结构化数据仓库中的文档
用关键词做文本的索引
11.3.3 非结构化数据可视化
11.4 自组织图
11.4.1 非结构化数据仓库
11.4.2 数量和非结构化数仓
11.5 适用于两个环境
抽象层保存元数据和库
记录层保存原始数据、标识符和紧密标识符
第十二章 大型数据仓库
12.1 快速增长的原因
数据仓库包括历史数据、以低粒度手机数据且要将很多不同种类的数据聚集
12.2 庞大数据量的影响
成本、有效性、数据管理
12.2.1 基本数据管理活动
数据量上升导致管理更加复杂
12.2.2 世纪储存费用
数据量上升导致成本极具上升
12.2.3 实际储存费用
需要纳入基本设施的成本中取
12.2.4 大型数据量中的数据使用模式
数据量增加,实际使用数据的比例在逐步下降
12.2.6 两类数据
使用频繁、非频繁的数据(冷备)
12.3 数据在不同介质的储存
12.3.1 近线储存
近线储存成本低于磁盘储存
12.3.2 访问速度和磁盘储存
冷备即访问速度满,但储存成本降低
12.3.3 存档成本
12.4 环境间数据转移
手工、HSM、CMSM
12.4.1 CMSM方法
该方法屏蔽底层细节,可直接使用储存位置不同的数据
12.4.2 数据仓库使用监控器
监控哪些数据在数据仓库中被用户使用
12.5 数据仓库转换
目的:降低成本(冷备)
12.6 总费用
冷备将指数上升的成本变为对数上升的成本曲线
12.7 最大容量
第十三章 关系模型和多维模型
13.1 关系模型
关系模型由一系列外键、关系键字相关联的表组成,关系表由主键和不同的属性组成。关系模型以一种标准化的形式存在(低粒度级)。
13.2 多维模型
多维模型也叫做星型连接。星型连接中心是一张事实表(包含大量数据值),而周围都是维度表。
13.3 雪花模型
不同事实表通过共享一个或多个公共维度表从而连接起来
13.4 两种模型的区别
13.4.1 区别的起源
关系环境通过企业数据模型设计出来,星型连接根据最终用户的请求塑造的,更加抽象
13.4.2 重建关系型数据
抽象细节数据创建
13.4.3 数据的直接访问和间接访问
关系模型间接访问,多维模型直接方法
13.4.4 支持将来未知需求
关系模型中存放低粒度原子数据,更灵活化
13.4.5 独立数据集市
指通过历史应用创建的数据集市
13.6 建立独立的数据集市
多个独立数仓形成中台数仓
第十四章 数据仓库高级话题
14.1 最终用户的需求和数据仓库
14.1.1 数据仓库和数据模型
数据仓库由数据模型定型、由高中低三层构成
14.1.2 关系型的基础
关系模型是数据模型的基础
14.1.3 数据仓库和统计处理
分析和工程计算分析
14.2 数据仓库内的资源竞争
竞争周期和竞争频率
14.2.1 探查型数据仓库
14.2.2 数据挖掘型数据仓库
14.2.3 冻结探查型数据仓库
14.2.4 外部数据和探查型数据仓库
将OLAP查询层计算和储存分离(Presto和Spark分离)
14.3 同一个处理器处理数据集市和数据仓库
将数据集市和数据仓库完全分离
14.4 数据的生命周期
发送、落档、ETL、数仓、集市(OLAP)、储存
14.5 测试和数据仓库
数据仓库本质就是不断调整,针对数据精确和完整反馈循环。也可用测试哭测试,但不能强分离。
14.6 追踪数据仓库中的数据流
14.6.1 数据仓库中的数据速率
指数据从生产懂啊被分析的过程速率
14.6.2 推和拉数据
数据被推入数据仓库、被数据集市(OLAP)拉走的速度
14.7 数据仓库和基于网络的电子商务环境
14.7.1 两种环境之间的界限
14.7.2 粒度管理器
14.7.3 概要记录
14.7.4 ODS、概要记录以及性能
14.8财务数据仓库
14.9 记录系统
14.10 结构体系-公司信息工厂
14.11 CIF的未来
第十五章 数据仓库的成本论证和投资回报
15.1 应对竞争
建立数仓 -> 快速分析 -> 带来价值
15.2 宏观上的成本论证
宏观上变量过多,没有绝对充足的理由
15.3 微观上的成本论证
没有数仓则需重新找到历史数据、集成数据、撰写分析报告
15.4 来遗留流环境的信息
15.4.1 新信息成本
操作软件获取信息成本高
15.4.2 用数据仓库收集信息
从数仓中抽取数据作报告,成本较低
15.4.3 成本比较
数仓降低了历史数据获取难度
15.4.4 建立数据仓库
寻找历史数据、集成数据
15.4.5 完整情况图
15.5 数据的时间价值
快速拿到历史数据
15.6 集成的信息
15.6.1 历史数据的价值
15.6.2 历史数据和客户关系模型
第十六章 数据仓库和ODS
16.1 互补的结构
16.2 不同种类的ODS
16.3 数据仓库设计——一种混合结构
16.4 按比例画图
16.5 ODS中的事务集成
16.6 对ODS处理日期进行分片
16.7 多个ODS库
第十七章 企业信息依从业准则和数据仓库
17.1 两个基本行为
遵守财务要求和财务管理
遵守条款中有关企业交流部分
17.2 财务依从准则
17.3 审计公司交流信息
第十八章 最终用户社区
18.1 农民:直接查询已知数据(报表)
18.2 探险者:启发式探索分析数据(分析师)
18.3 矿工:用统计工具分析项目的断言是否正确(分析师)
18.4 旅行者:熟悉结构化数据看元数据(开发)
18.5 整个社区:全部数仓用户
18.6 不同类型数据
18.7 成本论证和ROI分析