数据仓库术语

最新推荐文章于 2023-06-28 10:27:32 发布

passion_wang

最新推荐文章于 2023-06-28 10:27:32 发布

阅读量1.1k

点赞数

分类专栏： bi 文章标签：数据仓库数据结构存储数据挖掘 hierarchy 商业智能

bi 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

商业智能的技术体系(BI)主要有数据仓库（DW）、在线分析处理（OLAP）以及数据挖掘（DM）三部分组成。

　　数据仓库是商业智能的基础,许多基本报表可以由此生成,但它更大的用处是作为进一步分析的数据源。所谓数据仓库（DW）就是面向主题的、集成的、稳定的、不同时间的数据集合，用以支持经营管理中的决策制定过程。多维分析和数据挖掘是最常听到的例子,数据仓库能供给它们所需要的、整齐一致的数据。

　　在线分析处理（OLAP）技术则帮助分析人员、管理人员从多种角度把从原始数据中转化出来、能够真正为用户所理解的、并真实反映数据维特性的信息，进行快速、一致、交互地访问，从而获得对数据的更深入了解的一类软件技术。

　　数据挖掘（DM）是一种决策支持过程，它主要基于AI、机器学习、统计学等技术，高度自动化地分析企业原有的数据，做出归纳性的推理，从中挖掘出潜在的模式，预测客户的行为，帮助企业的决策者调整市场策略，减少风险，做出正确的决策。

数据仓库：数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时间变量。数据仓库是所有操作环境和外部数据源的快照集合。它并不需要非常精确，因为它必须在特定的时间基础上从操作环境中提取出来。

数据集市：数据仓库只限于单个主题的区域，例如顾客、部门、地点等。数据集市在从数据仓库获取数据时可以依赖于数据仓库，或者当它们从操作系统中获取数据时就不依赖于数据仓库。

事实：事实是数据仓库中的信息单元，也是多维空间中的一个单元，受分析单元的限制。事实存储于一张表中（当使用关系数据库时）或者是多维数据库中的一个单元。每个事实包括关于事实（销售额，销售量，成本，毛利，毛利率等）的基本信息，并且与维度相关。在某些情况下，当所有的必要信息都存储于维度中时，单纯的事实出现就是对于数据仓库足够的信息。我们稍后讨论有关缺无事实的情况。

维度：维度是用来反映业务的一类属性，这类属性的集合构成一个维度。例如，某个地理维度可能包括国家、地区、省以及城市的级别。一个时间维度可能包括年、季、月、周、日的级别。一个立方体数据结构(Cube)是由很多数据维(Dimension，简称“维”)组成，每一维都表示某一类的数据。维就是相同类数据的集合。数据维里的数据都限制在某一问题所界定的领域之内。在Microsoft OLAP Service里的立方体数据结构可以包含1-64个数据维。在立方体结构(Cube)里至少要包含一个数据维，在一个数据维(Dimension)里又至少包含一个层次(Hierarchy)，而一个层次又至少要包含一个级别(Level)。在每一个级别里，可以拥有多个成员(Member)。在事实表关键字与数据维成员交叉的地方，每一个成员至少有一个数据值出现在该位置上。

级别：维度层次结构的一个元素。级别描述了数据的层次结构，从数据的最高（汇总程度最大）级别直到最低（最详细）级别（如大分类-中分类-小分类-细分类）。级别仅存在于维度内。级别基于维度表中的列或维度中的成员属性。

数据清洗：对数据仓库系统无用的或者不符合数据格式规范的数据称之为脏数据。清洗的过程就是清除脏数据的过程。

数据采集：数据仓库系统中后端处理的一部分。数据采集过程是指从业务系统中收集与数据仓库各指标有关的数据。

数据转换：解释业务数据并修改其内容，使之符合数据仓库数据格式规范，并放入数据仓库的数据存储介质中。数据转换包括数据存储格式的转换以及数据表示符的转换（如产品代码到产品名称的转换）。

联机分析处理(OLAP Online Analytical Processing )：OLAP是一种多维分析技术，用来满足决策用户在大量的业务数据中，从多角度探索业务活动的规律性、市场的运作趋势的分析需求，并辅助他们进行战略发展决策的制定。按照数据的存储方式分OLAP又分为ROLAP(ROLAP即关联性(Relational)的OLAP。使用数据仓库中的表格来存储集合(Aggregations)，从相关的结构中收集数据。对立方体数据结构的存储，使用了标准的相关技术。该模式的优点是不需额外的存储空间存放信息，利用既存的资料仓储空间即可，缺点为反应时间较慢，较适合应用在不常使用且量大的情况，如历史性资料。)、MOLAP(MOLAP即多维性(Multidimensional)的OLAP。MOLAP采取了对查询性能和存储空间进行优化的多维结构方式，来存储立方体结构里的数据和结构集合(Aggregations)。在这种模式下，NULL值不被存储，并且由于执行了存储空间的优化，数据在存储时都进行了压缩。因此，该模式的优点为反应时间较快，缺点为存储空间需求大，适合应用在使用频率高、量小且反应时间要求快的情况。可以用于离线状态，如LOCAL CUBE。)和HOLAP(HOLAP即混合性(Hybrid)的OLAP。在进行数据结构存储时采用了MOLAP和ROLAP的混合型架构。Aggregations储存于MOLAP架构中，数据则留在原数据仓库中，以相关结构存储。适用于在大量资料下，仍要求快速反应的情况。但不易用于离线状态)。在客户信息数据仓库CCDW的数据环境下，OLAP提供上钻、下钻、切片、旋转等在线分析机制。完成的功能包括多角度实时查询、简单的数据分析，并辅之于各种图形展示分析结果。

常见的OLAP操作　　

1)上钻

又称上钻，通过一个维从低层次向较高的层次攀升，从而得到数据立方体的聚合数据。

如：在产品维度上，由产品向小类上卷，可得到小类的聚合数据；再由小类向大类上卷，可得到大类层次的聚合数据。

2)下钻

下钻是上卷的逆操作，它是由不太详细的数据到更详细的数据。如：沿着时间维度，从年到季度，再到月下钻，可以得到更加详细的数据。

3)切片和切块

切片操作在给定的数据多维模型的一个维度上进行选择，导致一个子方。比如：可以对时间维度按"时间=2002年1月"进行切片，得到一个含产品和门店两个纬度的片状图。

切块操作通过对两个维度或多个维度进行选择，定义子方。如：可按"时间=2002年1月"AND"城市=上海"进行切块。

4)旋转

旋转是一种目视操作，它转动数据的视角，提供数据的替代表示。

数据挖掘：在数据仓库的数据中发现新信息的过程被称为数据挖掘，这些新信息不会从操作系统中获得。

切片：一种用来在数据仓库中将一个维度中的分析空间限制为数据子集的技术。

切块：一种用来在数据仓库中将多个维度中的分析空间限制为数据子集的技术。

星型模式：是数据仓库应用程序的最佳设计模式。它的命名是因其在物理上表现为中心实体，典型内容包括指标数据、辐射数据，通常是有助于浏览和聚集指标数据的维度。星形图模型得到的结果常常是查询式数据结构，能够为快速响应用户的查询要求提供最优的数据结构。星形图还常常产生一种包含维度数据和指标数据的两层模型。

雪花模式：指一种扩展的星形图。星形图通常生成一个两层结构，即只有维度和指标，雪花图生成了附加层。实际数据仓库系统建设过程中，通常只扩展三层：维度（维度实体）、指标（指标实体）和相关的描述数据（类目细节实体）超过三层的雪花图模型在数据仓库系统中应该避免。因为它们开始像更倾向于支持OLTP 应用程序的规格化结构，而不是为数据仓库和OLAP应用程序而优化的非格式化结构。

粒度：粒度将直接决定所构建仓库系统能够提供决策支持的细节级别。粒度越高表示仓库中的数据较粗，反之，较细。粒度是与具体指标相关的，具体表现在描述此指标的某些可分层次维的维值上。例如，时间维度，时间可以分成年、季、月、周、日等。

数据仓库模型中所存储的数据的粒度将对信息系统的多方面产生影响。事实表中以各种维度的什么层次作为最细粒度，将决定存储的数据能否满足信息分析的功能需求，而粒度的层次划分、以及聚合表中粒度的选择将直接影响查询的响应时间。

度量值：在多维数据集中，度量值是一组值，这些值基于多维数据集的事实数据表中的一列，而且通常为数字。此外，度量值是所分析的多维数据集的中心值。即，度量值是最终用户浏览多维数据集时重点查看的数字数据（如销售、毛利、成本）。所选择的度量值取决于最终用户所请求的信息类型。

passion_wang

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
数据仓库术语

数据仓库：数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时间变量。数据仓库是所有操作环境和外部数据源的快照集合。它并不需要非常精确，因为它必须在特定的时间基础上从操作环境中提取出来。数据集市：数据仓库只限于单个主题的区域，例如顾客、部门、地点等。数据集市在从数据仓库获取数据时可以依赖于数据仓库，或者当它们从操作系统中获取数据时就不依赖于数据仓库。事实：事实是数据仓库中的信息单元，也是多维空间中的一个单元，受分析单元的限制。事实存储于一张表中（当使用关系数据库时）或者是多维数
复制链接

扫一扫