数据仓库学习笔记01

数据仓库的概念与体系结构

数据仓库与数据库的区别

数据仓库的概念:数据仓库是是一个面向主题的 、集成的、相对稳定的、反应历史变化的数据集合,通常用于决策支持
数据库:收集数据的仓库 容器
数据仓库的特点:

  • 面向主题
  • 集成的
  • 想对稳定的
  • 反映历史变化(带有时间戳)

一个数据库可能由若干个数据仓库组成
数据仓库的组成:

  • 数据仓库数据库;
  • 数据抽取工具;
  • 元数据:技术元数据与业务元数据;(根据用途分)
  • 访问工具;(数据查询 数据分析工具等)
  • 数据集市(Data Marts);(数据仓库的某一特定部分的数据)
  • 数据仓库管理;
  • 信息发布系统。

数据挖掘的概念与方法

数据挖掘的概念:
数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程
简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识,又被称为数据库中的知识发现(Knowledge Discovery in Database, KDD)

数据挖掘的分类:

  • 按挖掘对象分类:数据库、文本数据、多媒体数据、web信息等挖掘
  • 按挖掘任务分类:关联分析、回归分析、分类、聚类、偏差分析和预测
  • 按挖掘方法和技术分类:归纳学习类、仿生技术类、公式发现类、统计分析类、模糊数学类、可视化技术类

数据挖掘的分析方法:
直接数据挖掘 :利用可用的目标建立模型
间接数据挖掘:所有的变量中建立分析关系

数据仓库与数据挖掘的关系
若将数据仓库(Data Warehouse)比作矿井,那么数据挖掘(Data Mining)就是深入矿井采矿的工作
数据挖掘是从数据仓库中找出有用信息的一种过程与技术

数据仓库的技术、方法与产品

联机事务处理(OLTP)与联机分析处理(OLAP)的比较

OLTPOLAP
用户操作人员,底层管理人员决策人员,高级管理人员
功能日常操作处理分析决策
DB 设计面向应用面向主题
数据最新的,细节的,二维的,分立的历史的,聚集的,多维的,集成的
存取规模读/写数条(甚至数百条)记录读上百万(甚至上亿)条记录
操作频度非常频繁(以秒计)比较稀松(以小时甚至以周计)
工作单位严格的事务复杂的查询
用户数数百个-数千万个数个-数百个
DB 大小100MB-GB100GB-TB

OLAP技术的有关概念 :

  • 维度
  • 度量值
  • 多维数据集
  • 多维分析:钻取、切片与切块、旋转

OLAP根据其存储数据的方式可分为三类:

  • ROLAP(多维OLAP)
  • MOLAP(关系型OLAP)
  • HOLAP (混合OLAP)
    OLAP工具

数据仓库实施中的三个关键环节

  • 数据抽取;
  • 数据存储与管理;
  • 数据表现 ;(数据仓库的展示界面)

数据仓库系统的体系结构

数据仓库系统的体系结构的分类
(1)两层架构(Generic Two-Level Architecture)。
(2)独立型数据集市(Independent Data Mart)。查询速度快 兼容性好点 局限性:产生冗余数据等 规模扩大时成本较高
(3)依赖型数据集市和操作型数据存储(Dependent Data Mart and Operational Data Store)。
(4)逻辑型数据集市和实时数据仓库(Logical Data Mart and Real-Time Data Warehouse)。

数据仓库与数据集市

数据仓库数据集市
数据的来源生产系统、外部数据等数据仓库
范围规模企业级部门级或工作组级
主题以企业为主题以部门或特殊的分析为主题
数据粒度最细的粒度较粗的粒度
数据结构第三范式,规范化结构星型模型、雪花模型、星座模型
历史数据大量的历史数据适度的历史数据
优化处理海量数据、数据探索便于访问和分析、快速查询
索引高度索引高度索引

课后题复习

1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。

2、元数据是描述数据仓库内数据的结构和建立方法的数据,它为访问数据仓库提供了一个信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类。

3、数据处理通常分成两大类:联机事务处理和联机分析处理。

4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋转等各种分析动作,以求剖析数据,使拥护能从不同角度、不同侧面观察数据仓库中的数据,从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

6、数据仓库按照其开发过程,其关键环节包括数据抽取、数据存储与管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥发”的)、企业级的、详细的数据库,也叫运营数据存储。

9、“实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的速度交换数据和业务规则。

10、从应用的角度看,数据仓库的发展演变可以归纳为5个阶段:以报表为主、以分析为主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值