数据挖掘学习(二)-数据仓库

本文介绍了数据仓库的基本概念,包括其面向主题、集成、时变和非易失性的四大特征,并详细阐述了数据仓库与操作型数据库的区别。此外,还探讨了多维数据模型以及数据仓库的实现技术,如星型和雪花型结构,以及基于关系和多维数组的实现方法。
摘要由CSDN通过智能技术生成

一. 什么是数据仓库

     数据仓库是面向主题的、集成的、时变的和非易失性的数据集合,以支持管理的决策过程。

     数据仓库的四个主要特征:

           1.数据仓库是面向主题的

                        数据仓库的数据是以分析主题为中心来组织的。主题是一个抽象的概念,是企业决策分析所涉及的分析对象。按照面向主题的方式进行数据组织时,首先确

               主题,然后根据主题,确定相应的数据内容。

            2.数据仓库是集成的

                       数据仓库的数据来自多个不同的数据源。

                       多个数据源经常是异种或异构的,存在数据重复和语义不一致问题。

                       不是对这些数据源中某些数据的复制,而是对这些数据源中数据的进一步抽象。

                      它需要按照统一的结构、一致的格式、一致的度量单位、一致的语义、从不同的数据源提取数据并进行清洗、转换、综合、抽象,最后集成为面向主题的数据

                 集合,确保数据的综合性、宏观性和一致性。

             3.数据仓库是随时间不断变化的

                        数据仓库中数据仓库中的数据是历史数据,应该随时间的延长不断增加新的数据内容。(周期性更新)

                        数据仓库中的数据是综合数据,这些综合数据一般都与时间有关,如按照时间段进行综合的数据。这些综合数据要随着时间的延长而不断地变化。

             4.数据仓库是非易失的

                         数据仓库的数据主要供企业决策分析之用,很少进行修改,所涉及的数据操作主要有两类:

                                 – 数据加载

                                 – 数据查询和联机分析

                         数据仓库的数据一般都是历史数据,是对多个不同数据源进行统计、综合和重组后导出的数据。只要数据源中与数据仓库相关的数据不发生改变,数 据仓库中

                  的数据就不应该被改变。 一般来说,无需事务管理、并发控制与恢复等机制。

既然操作数据库中存放了大量的数据,为什么不直接对这种数据库进行联机分析处理,而是另外花费时间和资源去构建分离的数据仓库?

                               DBMS                   DWMS

        具有功能         OLTP                    OLAP

        数据视图         当前的                   历史的

                               细粒度的                综合的

                               局部的                   集成的

        设计目的         面向应用               面向分析

        查询                90%事先知道         90%是后知道的

                                update                   read-only but complex queries

                                一次操作所涉及     一次操作所涉及的数据量大

                                的数据量小

        开发周期         需求驱动                 数据驱动

二. 多维数据模型

     1.  一个数据仓库由若干多维数据集合组成,一个多维数据集合对应一个分析主题

     2. 一个多维数据集合包含两类数据:

                   度量属性:描述决策者进行分析计算用的数值型数据,是分析、统计的对象,如销售额。

                   维属性:描述度量属性的数据,如销售时间。表示决策分析者对主题数据考察的角度。维可以有复杂的层次关系。

     3. 多维数据集合的表示:星型结构,雪花型结构

三. 数据仓库的实现技术

     1. 基于关系的实现方法

         以关系数据库作为管理系统,数据以“关系表”的形式存储

                - 维表

                - 事实表

          用一个元组来表示多维空间中的一个点,元组中的某些属性值用来表示点在多维空间中的位置,其他属性值用来表示点的数据值。

      2. 基于多维数组的实现方法

          使用多维数组来存储多维数据集合。多维数据集合的维属性值被用做数组的维索引,确定多维数据集合中每个点在多维数组中的位置。
      维属性值不需要被存储。多维数据集合的度量属性值表示点的数据值。

      3. 混合方式

          同时提供关系型和多维数组
          扬长避短
                  – 利用关系表解决数据稀疏问题
                  – 利用多维数组解决元组中数值重复问题

         选择某些维存储在关系表中,起到索引的作用

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值