《数据仓库》读书笔记 2

最新推荐文章于 2024-07-06 22:34:06 发布

adamed

最新推荐文章于 2024-07-06 22:34:06 发布

阅读量164

点赞数

分类专栏：技术类文章标签：读书数据结构设计模式工作

技术类专栏收录该内容

23 篇文章 0 订阅

订阅专栏

读了数据仓库第2章，这一章讲解的是数据仓库环境。
梳理出来的知识点：
1、数据仓库是面向主题的。（数据仓库的数据只对于特定的领域或客户是有意义的。）
2、数据仓库集成。这是数据仓库所有特性中最重要的特性。数据仓库中的数据是从多个数据源来的。集成的功能之一就是消除不同数据源对于同一数据的表示差异。
3、数据仓库是非易失的。数据仓库中的数据一般意义上不进行数据更新。
4、数据仓库是随时间变化的。
5、建立数据仓库不是一蹴而就的。相反，数据仓库只能一步一步地进行设计并载入数据。即它是进化的不是革命性的。一下子完整地简历一个数据仓库的费用、所需的资源和对环

境的破坏，都决定了数据仓库的建立要采用有序地反复和一步一步进行的方式。对于数据仓库的开发而言，爆炸式的开发智慧带来灾难性的后果，这种方法永远不是合适的选择。
6、当数据仓库数据量非常庞大时可以考虑使用“活样本数据库”。活样本数据库是从数据仓库中取得的真实档案数据或轻度综合数据的一个子集。（个人感觉活样本数据库就是使

用概率论的理论从全集数据库中随机抽取数据以使数据在某一方面统计概率近似于真实数据环境）

本章小结如下：
数据的粒度与分区时进行数据仓库设计决策的两个最重要的方面。对于大部分机构来说，采用双重粒度是非常有意义的。数据分区是将数据分解成为小的物理单元。通常，分区时在应用层而非系统层进行。

数据仓库开发最好是以反复的方式进行。首先，简历数据仓库的一部分，然后再建立另一部分。幻想一次建成数据仓库是不合适的。其中一个原因是数据仓库的最终用户工作于一种发现模式下，只有在数据仓库的第一次循环开发完成后，开发者才能确定数据仓库中究竟应该包含什么。

数据仓库中数据的粒度是数据仓库设计中最重要的问题。非常低的粒度会带来大量数据，系统最终会被巨大的数据量所压垮。非常高的粒度虽然处理起来高效，但却不能进行许多需要细节数据的分析。此外，数据仓库中的粒度的选择应该在清楚地知道哪些体系结构部件需要从数据仓库获取数据的前提下进行。

令人惊奇的是有许多设计也可以用来处理粒度的问题。其中一种方法是建立一个服务于不同类型查询与分析的双重粒度的多层数据仓库。另一种方法是建立一个活样本数据库，这样统计处理就可以再这个活样本数据库上进行非常高效的处理。

数据仓库的分区也由于许多原因而特别重要。数据分区似的数据可以在小的分开的离散单元中进行管理。这使得数据仓库中的数据装载变得简单，建立索引也更流畅，数据归档也变得容易，等等。至少有两种对数据进行分区的方法---在DBMS/操作西天那个层和在应用层。每一种分区方法都有各自的优缺点。

数据仓库环境中的每一数据单元都有一个时刻与它关联。一般情况下，这个时刻在每个记录中以快照形式出现。另一些情况下，这个时间是应用于整个表的。数据经常是按天、月或季度汇总的。另外，数据以一种连续的方式创建。数据的内部时间组织可以用多种形式实现。

审计可以再数据仓库中进行，但却不应该在其中进行。相反，审计最好置于细节的面向操作系统型事务的环境中进行。在数据仓库中进行审计会强制数据仓库采用某种粒度级，但这可能并不是其他处理所需的力度级。

数据仓库中的数据生命周期包含了数据的清理。开发者经常在设计规范中忽视了清理。结果导致数据仓库永远地增长下去，这当然是不能能的。

adamed

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
《数据仓库》读书笔记 2

读了数据仓库第2章，这一章讲解的是数据仓库环境。梳理出来的知识点：1、数据仓库是面向主题的。（数据仓库的数据只对于特定的领域或客户是有意义的。）2、数据仓库集成。这是数据仓库所有特性中最重要的特性。数据仓库中的数据是从多个数据源来的。集成的功能之一就是消除不同数据源对于同一数据的表示差异。3、数据仓库是非易失的。数据仓库中的数据一般意义上不进行数据更新。4、数据仓库是随时间变化...
复制链接

扫一扫