目录
一 数据仓库概述
1.1 什么是数据仓库
数据仓库
(Data Warehouse)
是一个面向主题的
(SubjectOriented)、集成的
(Integrated)
、相对稳定的
(Non-Volatile)
、反映历史变化的
(Time Variant)
数据集合,用于支持管理决策(Decision Making Support)
和信息的全局共享(Global Sharing of Information)。
其主要功能是将组织透过资讯系统之联机事务处理
(OLTP)
经年累月所累积的大量资料,
透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理
(OLAP)
、数据挖掘
(Data Mining)
之进行,并进而支持如决策支持系统
(DSS)
、主管资讯系统
(EIS)
之创
建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境
变动,帮助建构商业智能
(BI)
。
1.2 数据仓库的作用
整合公司所有业务数据,建立统一的数据中心
产生业务报表,用于作出决策
为网站运营提供运营上的数据支持
可以作为各个业务的数据源,形成业务数据互相反馈的良性循环
分析用户行为数据,通过数据挖掘来降低投入成本,提高投入效果
开发数据产品,直接或间接地为公司盈利
1.3 数据仓库的特征
1.
数据仓库的数据是面向主题的
2.
数据仓库的数据是集成的
3.
数据仓库的数据是非易失的
4.
数据仓库的数据是随时间不断变化的
1.3.1 面向主题的特征
主题(
Subject
)
:特定的数据分析领域与目标。
主题是根据分析的要求来确定的。这与按照数据处理或应用的要求来组织数据是不同的。如在生产企业中,同样是材料供应,在操作型数据库系统中,人们所关心的是怎样更方便和更快捷地进行材料供应的业务处理;而在进行分析处理时,人们就应该关心材料的不同采购渠道和材料供应是否及时,以及材料质量状况等。 数据仓库是面向分析、决策人员的主观要求的,不同的用户有不同的要求,同一个用户的要求也会随时 间而经常变化,因此,
数据仓库中的主题有时会因用户主观要求的变化而变化的
。
面向主题划分如下:
数据仓库面向在数据模型中已经定义好的公司的主要主题领域。
典型的主题领域包括顾客、产品、订单和财务 或是其他某项事务或活动。
基本主题:
教育机构:学生、讲师、班主任、课程等
电商行业:运营、流量、价值、商品、市场、风控、销售等
传统行业:供应商、商品、客户、仓库等
主题域
主题域通常是联系较为紧密的数据主题的集合。可以根据业务的关注点,将这些数据主题划分到不同的主题 域。主题域的确定必须由最终用户和数据仓库的设计人员共同完成。 主题边界的划分应该按照以下规则来进行定义划分。 首先数据仓库中逻辑模型根据业务划分为多个主题域,主题域下面会涉及具体的实体表,维表以及关系实体,这 些划分可以按照下面规则来进行划分。
a:每个主题域包含一个主要业务概念;
b:每个主题域包含一个主要交易业务概念,用一个或几个核心实体来表述。
c:主题域与主题域之间的核心实体不能重叠,核心实体间的关系实体则可以出现在两个主题域内;
d:每个主题域中包含几个关键的核心实体,且这几个核心实体间具有直接的关联关系。
主题域的另一种定义是:对某个主题进行分析后确定的主题的边界。分析主题域,确定要装载到数据仓库的主 题是信息打包技术的第一步。而在进行数据仓库设计时,一般是一次先建立一个主题或企业全部主题中的一部 分,因此在大多数数据仓库的设计过程中都有一个主题域的选择过程。主题域的确定必须由最终用户和数据仓 库的设计人员共同完成。
1.3.2 集成的特征
集成性是指数据仓库中数据必须是一致的。数据仓库的数据是从原有的分散的多个数据库、数据文
件和数据段中抽取来的,数据来源可能既有内部数据又有外部数据。
数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,因此
数据仓库中的数据必须从多个数据源中获取,这些数据源包括多种类型数据库、文件系统以及
Internet
网上数据等,它们通过数据集成而形成数据仓库中的数据。
集成的方法:
统一:
消除不一致的现象
综合:
对原有数据进行综合和计算
集成需要考虑的问题:
数据格式
计量单位
数据代码含义混乱
数据名称混乱
1.3.3 非易失
数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,
执
行的主要是
‘
查询
’
操作,一般情况下不执行
‘
更新
’
操作
。同时,一个稳定的数据环境也有利于数据分
析操作和决策的制订。
面向应用的事务数据库需要对数据进行频繁的插入、更新操作,而对于数据仓库中数据的操作
仅限
于数据的初始导入和记录查询
。
1.3.4 随时间不断变化
数据仓库以维的形式对数据进行组织,
时间维是数据仓库中很重要的一个维度