数据仓库笔记

最新推荐文章于 2024-10-08 11:49:18 发布

ctest3001

最新推荐文章于 2024-10-08 11:49:18 发布

阅读量78

点赞数

文章标签：数据库操作系统测试

提取

在提取阶段从数据源中获取相关数据，在第一次填充数据仓库时可以使用静态提取，比如操作数据的一个快照。增量提取用于定期更新数据仓库，这种方法可以捕获上次提取以后应用于源数据的改动。

清洗

此阶段至关重要，主要分为以下几个方面：

• 数据重复：例如在医院患者管理系统中多次记录一名患者。

• 逻辑上关联的不一致值：比图地址和ZIP编码。

• 缺少数据：比如客户的工作。

• 意外使用字段：例如，可能不恰当地使用socialSecurityNumber字段来存储办公室的电话号码。

• 不可能的或者错误的值：比如2/30/2009

• 由于使用了不同的惯例，单个实体的值存在不一致的情况：例如要指定一个国家，可以使用国际国家缩写（I）或者完整的国家名（Italy）；类似的问题也在地址中出现。

• 由于输入错误，单个实体的值不一致：比如Jonsen而不是Johnson。

ETL工具主要数据清洗功能是纠正和均质化。

转换

转换是协调阶段的核心。它将数据从其操作型数据源格式转换为特定的数据仓库格式。如果实现了一个3层体系结构，这个阶段会输出协调数据层。建立源数据层和数据仓库之间的映射与协调数据层的存在与否无关。

加载

可以使用两种方式进行加载：

• 刷新：彻底重写数据仓库的数据。这意味着替换旧数据，刷新通常与静态提取一起使用，以第一次填充数据仓库。

• 更新：只将对数据源数据的改动添加到数据仓库中。执行更新时通常不会删除或更改原有的数据。这种技术与增量提取一起使用来定期更新数据仓库。

有两种方式来降低数据量并获取有用信息:限制和聚合。限制指的是从立方体分离部分数据来选出分析字段，比如数据切片（data slicing），数据切块是数据切片的一般化。聚合（aggregation）就是将其中一种度量维度的基本单位合成一个新的度量维度。

元数据

元数据是关于数据仓库中数据的数据。类似于数据库管理系统的数据字典，windows操作系统的注册表。在用ETL构建数据仓库时元数据定义了源数据系统到数据仓库的映射，数据转换的规则，数据仓库的逻辑结构，数据更新的规则，数据导入历史记录以及装在周期等相关内容。用户在使用数据仓库时，通过元数据访问数据，明确数据项的含义和定制报表。数据仓库的规模及其复杂性离不开正确的元数据管理，包括增加或移除外部数据源，改变数据清洗方法，控制出错的查询以及安排备份等。

元数据分为技术元数据和业务元数据。技术元数据为开发和管理数据仓库的IT人员使用，它描述了与数据仓库开发，管理和维护相关的数据，包括数据源信息，数据转换描述，数据仓库模型，数据清洗与更新规则，数据映射和访问权限等。业务元数据为管理层和业务分析人员服务，从业务角度描述数据，包括商务术语，数据仓库中有什么数据，数据的位置和数据的可用性等，帮助业务人员更好的理解数据仓库中哪些数据是可以用的以及如何使用。

元数据的主要作用：描述哪些数据在数据仓库中，帮助决策分析者对数据仓库的内容定位；定义数据进入数据仓库的方式，作为数据汇总，映射和清洗的指南；记录业务事件发生而随之进行的数据抽取工作时间安排；记录并检测系统数据一致性的要求和执行情况；评估数据质量。

风险因素

• 与项目管理有关的风险

• 与技术有关的风险

• 与数据和设计有关的风险

• 与组织有关的风险

数据仓库创建方式：

自上而下：即一个企业建立唯一的数据中心，就像一个数据的仓库，其中数据时经过整合，清洗，去掉脏数据的，标准得，能够提供统一的视图。要建立这样的数据仓库，并不从它需要支持哪些应用入手，而是要从整个企业的环境入手，分析其中的概念，应该有什么样的数据，达成概念完整性。理想状况下，数据仓库建成以后，因为数据是标准的，没有太多冗余，数据质量得以保证。因此，报表，OLAP以及其他任何统计分析应用都可以从中获取需要的数据。然而这仅仅是理想，多少有点形而上的做法，有些过于追求事物的本质。预估的高成本与漫长的实现时间阻止了公司管理人员开展这些项目。分析和收集全部相关数据源是一件非常困难的任务，也因为它们不大可能同时可用并且十分稳定。预计项目中涉及的每个部门的具体需求极为困难，这可能使分析过程陷入停滞。因为在短期内不会交付原型，用户无法检查项目是否有用，所以他们丧失了对项目的信任和信心。

自下而上：强调应用决定数据，有什么应用就获取什么数据。理想状况下，一项分析应用只需要刚刚好的数据。例如人力资源部门的数据集市，就不需要市场拓展的数据，那么这些数据将不被纳入该集市中。很明显这也是理想化的，因为需求不断变化得，今天人力资源可能不需要市场拓展数据，但是如果哪一天需要分析员工做市场推广的成本收益，恐怕就需要这些数据了。

（1）设定目标并进行规划：这个预备性的阶段完成一些准备工作。它以可行性研究为基础。这种可行性研究的目的是设定系统目标，属性和预计的规模，选择一种方法来构建数据仓库，以及估计成本和附加值。另外应该执行风险和期望分析以及团队能力检验来处理组织问题。这样就可以为这个数据仓库项目定义实现计划，并将其提交给高级管理人员。

（2）设计基础设施：这个阶段分析和比较体系结构解决方案并评估现有技术和工具以便为整个系统创建一个预备性计划。

（3）设计和开发数据集市：每次迭代都会创建新的数据集市和新的应用程序，并将其逐步添加到数据仓库系统中。

SAS Institute的快速数据仓库方法：

是一种管理数据仓库项目的迭代式的，不断演进的方法，可能很大的项目划分为较小的，风险也更小的子项目，称为“构建”。每次构建利用前面的构建期间开发的数据仓库环境。它扩展这些环境来添加新功能和发展他们。这样每次构建可以使前面的数据仓库环境保持满足用户不断改变的需求。随着时间的推移，这种方法可以确保用户任然对项目感兴趣并参与到项目中。

数据集市的设计：

每个数据集市设计都起着关键的作用，这个过程会变得越来越困难，因为它需要使用与传统操作型数据库完全不同的设计技术。

下面是数据集市设计的7个阶段：

阶段	输入	输出	参与人员
数据源的分析和协调	操作型数据源模式	协调模式	设计人员，数据处理中心人员
需求分析	战略目标	需求说明，预备性工作负荷	设计人员，终端用户
概念设计	协调模式，需求规范	事实模式	设计人员，终端用户
工作负荷细化，概念模式验证	事实模式，预备性工作负荷	工作负荷，数据卷，验证的事实模式	设计人员，终端用户
逻辑设计	事实模式，目标逻辑模型，工作负荷	逻辑数据集市模式	设计人员
数据准备设计	数据源模式，协调模式，逻辑数据集市模式	ETL过程	设计人员，数据库管理员
物理设计	逻辑数据集市模式，目标DBMS，工作负荷	物理数据集市模式	设计人员