【DBMS 数据库管理系统】数据仓库 数据组织 ( 数据组织级别 | 元数据 | 粒度 | 分割 | 数据组织形式 )





一、数据仓库中的 数据组织级别



数据仓库中的数据组织 级别 : 下面 细节程度 由低到高 逐一解析 ;

  • 早期细节级别数据 : 之前的一段时间的历史数据 ;
  • 当前细节级别数据 : 最近阶段的历史数据 ;
  • 轻度综合级别数据 : 以 天 , 星期 , 月 , 为时间单位综合数据 ;
  • 高度综合级别数据 : 以 季度 , 年 , 为时间单位综合数据 ;

引入 “力度” 概念 : 上述介绍的 数据的不同的综合级别 , 称为力度 ;

  • 力度效果 : 力度越大 , 细节成都越低 , 综合程度越高 ;
  • 级别划分 : 数据的综合级别的划分 , 是根据力度进行划分的 ;

数据仓库中的数据组织 涉及概念 : 粒度 与 分割 , 数据仓库数据组织形式 , 数据仓库数据追加 ;





二、数据仓库中的 元数据



元数据 ( MetaData ) :

  • 概念 : 关于 “数据” 的 数据 ;
  • 数据库 -> 数据仓库 :操作型环境数据仓库环境 转换 , 建立的元数据 ; 包含 元数据项名 , 属性 , 属性在数据仓库中的转换 ;
  • 数据仓库 -> 前端应用 映射 : 多维数据模型前端工具 之间建立的映射 , 该映射相关的数据 是 元数据 ;




三、粒度 ( 根据 数据综合程度 划分粒度 )



根据 “数据综合程度” 划分粒度 : “粒度” 是对 数据仓库 中的数据 的 综合程度高低 进行的度量 ;

  • 粒度与综合 : 粒度越小 , 数据细节程度越高 , 数据的综合程度越低 ;
  • 多粒度查询 : 数据仓库中一般查询是多粒度查询 , 不同的粒度 , 能回答不同的查询 ;

不同粒度查询举例 : 粒度大小影响数据库查询的效率 ;

  • 细节查询 : 如果要查询 A A A 是否在昨天下午 3 3 3 点给 B B B 打过电话 , 此时应该直接查询该时间点的数据 ;

  • 以 “年” 为粒度查询 : 如果要查询 A A A 去年通话时间 , 就需要查询以 “年” 为单位的通话数据 ;

  • 以 “十年” 为粒度查询 : 如果要预测 A A A 未来几年的通话时间 , 就需查询 A A A 所有的通话数据记录 , 然后做出预测 ;





四、粒度 ( 根据 样本采样率 划分粒度 )



根据 “采样率高低” 划分粒度 :

  • 样本数据库 : 一定的采样率细节数据 / 轻度综合数据 中抽取出的 数据子集 , 称为样本数据库 ;
  • 样本数据库 “作用” : 使用该 数据子集 进行 模拟分析 ;
  • 抽象方式 : 随机抽取 ;

"样本数据库" 优点 :

  • 效率 : 查询分析 效率 高 ;
  • 降低数据量 : 如果源数据的数据量很大 , 抽样数据的量可以降低 ;
  • 准确度高 : 分析结果的误差很小 , 准确度高 ;
  • 主要因素 : 这种分析方式 , 有助于抓住 主要因素 , 主要矛盾 ;

两种形式的 “粒度” 举例 : “商品” 主题 ;

  • 时间段上信息综合粒度 : 销售综合表 , 采购综合表 , 是 根据 “数据综合程度” 划分的粒度 ;
  • 不同时间点的采样粒度 : 库存信息表 , 是 根据 “采样率高低” 划分的粒度 ;




五、分割



分割 :完整的数据集 分散到 各自的物理单元 中去 , 以便能 分别独立处理 ;

  • 分割结果 : 数据 分割后的 数据单元 , 称为 分片 ;
  • 分割目的 : 提高效率 ;
  • 分割作用 : 分析 相关性 数据集合 , 将 具有相关性 的数据 组织到一起分析 , 提高分析效率 ;

分割标准 :

  • 方便进行如下操作 : 重构 , 索引 , 重组 , 恢复 , 监控 , 扫描 ;
  • 业务领域
  • 日期
  • 地域
  • 多个分割标准组合

"分割" 示例 : 对 保险行业数据 进行分割 ;

  • 总的数据集 : 3 3 3 年的 车险 , 寿险 , 健康险 , 财产险 , 意外险 数据 ;
  • 分割标准 : 按照 “时间” , 和 “险种” , 进行分割 ;
  • 分片详情 : 分片个数为 3 × 5 = 15 3 \times 5 = 15 3×5=15 个数据分片 ;
时间车险寿险健康险财产险意外险
2020 2020 2020分片 1 1 1分片 2 2 2分片 3 3 3分片 4 4 4分片 5 5 5
2019 2019 2019分片 6 6 6分片 7 7 7分片 8 8 8分片 9 9 9分片 10 10 10
2018 2018 2018分片 11 11 11分片 12 12 12分片 13 13 13分片 14 14 14分片 15 15 15

数据分片使用方式 :

  • 处理单独数据分片 : 如果只分析 2019 2019 2019 年的车险数据 , 只需要分析 分片 6 6 6 中的数据即可 , 每个分片的数据都可以独立处理 ;

  • 合并若干数据分片 : 如果分析 2020 2020 2020 年的健康险 和 意外险 数据 , 那么需要 将 分片 2 2 2 和 分片 5 5 5 合并起来 , 进行分析 ;





六、数据仓库组织形式



数据仓库组织形式 :

  • 简单堆积文件
  • 轮转综合文件
  • 简化直接文件
  • 连续文件

简单堆积文件 :

  • 概念 : 将数据库中 提取加工 的数据 , 直接积累存储 ;
  • 操作 : 来一个存放一个 , 按照时间先后顺序存放 , 堆积 ;

轮转综合文件 :

  • 概念 :数据的存储单位 , 分成 若干级别 , 每个级别有有限个指定的数据 ;
  • 数据形式 : 一定时间段的综合数据 , 称为 轮转记录 ;
  • 优点 : 结构简单 , 数据量比 “简单堆积文件” 少 ;
  • 缺点 : 综合数据 , 会损失数据细节 , 越久远的历史数据 , 数据细节损失的越多 ;
  • 操作 : 够一个时间段 , 就将指定长度的数据综合在一起 ; 每次综合都会损失一定的数据细节 ;
  • 示例 : 如果数据积累够 1 天 , 直接综合成一天的数据 ; 如果数据积累够 30 天 , 直接综合成一个月的数据 ; 如果数据积累够 12 个月 , 直接综合成一年的数据 , 小时的数据不超过 24 个 , 天的数据不超过 30 个 , 月的数据 不超过 12 个 ;

简化直接文件 :

  • 概念 : 按照一定时间间隔 , 对数据库采样 ;
  • 快照 : 每隔一定时间 , 做一个数据库快照 , 存储该快照 , 与 “简单堆积文件” 类似 ;
  • 示例 : 周一对数据做一个快照 , 周二在做一个快照 , 每天都做一个数据库快照 , 存储下来 ;
  • 缺点 : 浪费存储空间 ;

连续文件 : 在上述 “简化直接文件” 快照的基础之上 , 进行增量更新 , 只更新对比后的差异数据 ;

  • 概念 : 两个连续简化的直接文件 , 对比两个文件的差异 , 生成连续文件 ;
  • 连续文件 + 新的简单文件 = 新的连续文件
本书论述在设计和建造数据仓库中涉及的所有主要问题,论述分析型环境(决策支持系统环境)以及在这种环境中的数据构造。主要内容包括数据仓库的设计与建造步骤,传统系统到数据仓库的迁移,数据仓库数据粒度数据分割元数据管理、外部数据与非结构化数据,分布式数据仓库、高级管理人员信息系统和数据仓库的设计评审等。 本书主要是面向数据仓库的设计、开发和管理人员,以及构造和使用现代信息系统的人员,也适于信息处理方面的高校师生和从事传统数据库系统技术工作的人阅读。 目录 译者序 审、译者简介 前言 第1章 决策支持系统的发展 1 1.1 演化 1 1.2 直接存取存储设备的产生 2 1.3 个人计算机/第四代编程语言技术 3 1.4 进入抽取程序 3 1.5 蜘蛛网 4 1.6 自然演化体系结构的问题 5 1.6.1 数据缺乏可信性 5 1.6.2 生产率问题 8 1.6.3 从数据到信息 10 1.6.4 方法的变迁 11 1.7 体系结构设计环境 12 1.7.1 体系结构设计环境的层次 13 1.7.2 集成 14 1.8 用户是谁 15 1.9 开发生命周期 15 1.10 硬件利用模式 16 1.11 建立重建工程的舞台 16 1.12 监控数据仓库环境 17 1.13 小结 19 第2章 数据仓库环境 20 2.1 数据仓库的结构 22 2.2 面向主题 23 2.3 第1天到第n天的现象 26 2.4 粒度 28 2.4.1 粒度的一个例子 29 2.4.2 粒度的双重级别 31 2.5 分割问题 34 2.6 样本数据库 34 2.7 数据分割 35 2.8 数据仓库中的数据组织 37 2.9 数据仓库—标准手册 41 2.10 审计和数据仓库 41 2.11 成本合理性 41 2.12 清理仓库数据 42 2.13 报表和体系结构设计环境 42 2.14 机遇性的操作型窗口 43 2.15 小结 44 第3章 设计数据仓库 45 3.1 从操作型数据开始 45 3.2 数据/过程模型和体系结构设计环境 49 3.3 数据仓库数据模型 50 3.3.1 数据模型 52 3.3.2 中间层数据模型 54 3.3.3 物理数据模型 58 3.4 数据模型和反复开发 59 3.5 规范化/反规范化 60 3.6 数据仓库中的快照 65 3.7 元数据 66 3.8 数据仓库中的管理参照表 66 3.9 数据周期 67 3.10 转换和集成的复杂性 70 3.11 触发数据仓库记录 71 3.11.1 事件 72 3.11.2 快照的构成 72 3.11.3 一些例子 72 3.12 简要记录 73 3.13 管理大量数据 74 3.14 创建多个简要记录 75 3.15 从数据仓库环境到操作型环境 75 3.16 正常处理 75 3.17 数据仓库数据的直接访问 76 3.18 数据仓库数据的间接访问 76 3.18.1 航空公司的佣金计算系统 76 3.18.2 零售个性化系统 78 3.18.3 信用审核 80 3.19 数据仓库数据的间接利用 82 3.20 星型连接 83 3.21 小结 86 第4章 数据仓库中的粒度 87 4.1 粗略估算 87 4.2 粒度划分过程的输入 88 4.3 双重或单一的粒度? 88 4.4 确定粒度级别 89 4.5 一些反馈循环技巧 90 4.6 粒度级别—以银行环境为例 90 4.7 小结 95 第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据管理 99 5.8 语言接口 99 5.9 数据的高效装入 99 5.10 高效索引的利用 100 5.11 数据压缩 101 5.12 复合键码 101 5.13 变长数据 101 5.14 加锁管理 102 5.15 单独索引处理 102 5.16 快速恢复 102 5.17 其他的技术特征 102 5.18 DBMS类型和数据仓库 102 5.19 改变DBMS技术 104 5.20 多维DBMS数据仓库 104 5.21 双重粒度级 109 5.22 数据
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值