数据仓库技术系列
数据仓库技术的课件
Shang_HuanQ
这瓜保熟吗?
展开
-
数据仓库技术(Data Warehouse Technologien) 第一章节 总览(1)
内容均来自博主所在大学的课程,在此不引用原文,均以翻译和个人理解文本出现。如需要原版幻灯片(德语),请联系博主。这将是一个系列的课程,国内对数据仓库的相关课程以及资料少之又少,即使出现也只是作为数据挖掘的陪衬,特此在这里进行总结以便整理和交流。另外,是否制作慕课视频正在计划之中。 课件及书本作者:Prof. Dr.-Ing. Kai-Uwe Sattler, Prof. Dr. Gunter ...原创 2019-11-30 00:28:56 · 286 阅读 · 1 评论 -
数据仓库技术(Data Warehouse Technologien) 第四章节 提取,转换,加载 (ETL)(1)
1. 概览 ETL过程 从源中提取数据 加载数据 转换任务 模式的异构性 数据错误 ELT 2. ETL:概览 两步 从源中到数据清洗区域 从源中提取数据 创建/识别差异更新 创建LOAD文件 从数据清洗区域到基础数据库 数据清洗和标记 生成集成的数据集 DWH持续提供数据 保证DWH与数据源的一致性 必要的有效方法...原创 2020-04-12 17:29:16 · 281 阅读 · 0 评论 -
数据仓库技术(Data Warehouse Technologien) 第三章节 多维数据模型(3)
32. 雪花模式 (Snowflake Schema) 分类映射:每个分类级别一张表(比如,商品,产品组,等) 维度表包含: 分类节点的ID 描述的属性(比如:市场,生产者,名称/标志) 直属的更高分类层次的外键 事实表包括(除了变量): 每个最低分类级别的外键 外键构成事实表的复合主键 33. 星形模式 (Star Schema) 雪花模式是范化的:避免更新异...原创 2020-04-09 21:37:47 · 420 阅读 · 0 评论 -
数据仓库技术(Data Warehouse Technologien) 第三章节 多维数据模型(2)
11. Kennzahlen 特征值 特征值/事实 facts 压缩处理后的数字类型的测量变量 描述的是企业经济的相关主题 事实:测量值 Kennzahl 特征值:由事实构造而成(衍生的特征值) 示例: 销售额,盈利,开销 利润率,投资回报 周转率,销售额提升 12. 事实:Schema 模式 模式将通过多个组件来解释说明 粒度G = {,...,} G是所有...原创 2020-04-09 16:54:35 · 520 阅读 · 0 评论 -
数据仓库技术(Data Warehouse Technologien) 第三章节 多维数据模型(1)
0. 概览 基本概念 立方体 概念建模 数据分析操作 多维度数据模型的关系实现 缓慢更改的维度 1. 基本概念/术语 维度 事实/特征值(Kennzahlen) 维度与事实 2. 动机(Motivation) 以支持分析为目的的数据模型 决策过程中的数据分析 企业经济的特征值作为重点 → 事实 盈利 销售额 开支 等 考虑来自不同方面...原创 2020-01-10 19:40:38 · 304 阅读 · 0 评论 -
数据仓库技术(Data Warehouse Technologien) 第六章节 数据仓库的存储结构(1)
1. 引入 关系存储 多维度存储 存储变体 面向列存储 2. 关系存储 ROLAP 实现关系的星型或者雪花模型 数据仓库表格的最常见的存储格式 特点 非常大的实事表 通过分区加速访问 多维度访问 特殊的簇结构和索引结构 更新特性(依赖于数据) 3. 分区 独立且互补于索引驱动:将大规模的关系分配到小的关系(所谓的分区或者分片) 分区的大小和内容取决于查...原创 2020-04-12 16:38:19 · 571 阅读 · 0 评论 -
数据仓库技术(Data Warehouse Technologien) 第二章节 数据仓库架构(3)
20. 独立数据集市 彼此独立生成“小”的数据仓库(比如,从单个的组织/机构); 事后进行集成和转换; 问题 不同的分析视图(数据集市、全局数据仓库); 基于附加的转换的分析一致性。 21. 分析工具 商务智能工具 任务 展现搜集的数据; 交互式导航; 分析可能性; 分析 简单的算术操作(比如,聚合)... 复杂统计调查(比如,数据挖掘); 准备...原创 2019-12-06 15:55:36 · 154 阅读 · 0 评论 -
数据仓库技术(Data Warehouse Technologien) 第二章节 数据仓库架构(2)
8. 监视器 任务 发现一个数据来源中的数据操纵。 策略 基于触发器 活跃的数据库机制 当数据更改时触发触发器; 复制更改的元组至其他的区域; 基于复制/重复 使用复制机制来传递更改过的数据; 基于日志 分析DBMS中的事务日志文件以识别更改; 基于时间戳 为元组分配时间戳; 更改时更新; 通过时间对比...原创 2019-12-04 03:15:48 · 138 阅读 · 0 评论 -
数据仓库技术(Data Warehouse Technologien) 第二章节 数据仓库架构(1)
0. 概览 要求 参考架构 Data Warehousing 阶段 组件 1. Data Warehousing的要求 数据源和分析系统之间的独立性(关于可用性、负载、持久性/连续的改变) 持续提供集成的和派生的数据(持久) 被提供数据的可重用性 原则上进行任何评估的可能性 支持独立视图(比如,关于时间跨度、域和结构) 可拓展性(比如,集成一个新的源) 过程自动化 ...原创 2019-12-03 17:59:34 · 253 阅读 · 0 评论 -
数据仓库技术(Data Warehouse Technologien) 第一章节 总览(4)
29. 数据仓库架构 数据仓库的组件和它们的任务 数据库 数据源:数据的来源地。 数据清洗区:用于转换的临时数据库。 数据仓库:用于分析的物理数据库。 元数据库:存储元数据的数据库。 数据仓库架构 30. 数据仓库架构:组件 数据仓库管理者(DW Manager): 中央管理和操纵; 监视器:监视更改的源; 提取器:选择并传送源中的数据至数据清洗区; 转换器...原创 2019-12-02 22:14:02 · 234 阅读 · 0 评论 -
数据仓库技术(Data Warehouse Technologien) 第一章节 总览(3)
21. 与OLTP的区别 OLTP(传统) OLAP(数据仓库) 查询方面 关注点/焦点 读、写、改、删 读、周期性添加 事务持续时间 短读、写事务 持久的读事务 查询结构 简单结构 复杂 单个查询的数据量 少量的数据记录 大量的数据记录 数据模型 灵活查询/请求 分析相关 数...原创 2019-12-02 18:09:14 · 156 阅读 · 0 评论 -
数据仓库技术(Data Warehouse Technologien) 第一章节 总览(2)
10. 在企业经济学/企业管理学中的应用 提供信息 数据与信息作为决策的基础(比如:Kennzahlen 可作参数,特性数值,代码); 对未来的经营业绩以及业务流程的影响; 使用者:经理,部门领导,专业人员; 提供信息的形式: )查询方法 - 自定义查询以及报告(独立的解决策略); )报告:预定义报告的访问(固定的解决方案); )编辑整理个性化信息; )特定域的数据视图; ...原创 2019-12-01 02:02:14 · 179 阅读 · 0 评论