数据仓库概述

一、什么是数据仓库
Bill Inmon:数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。

Ralph Kimball:数据仓库是一个将源系统数据抽取、清洗、规格化、提交到维度数据存储的系统,为决策的制定提供查询和分析功能的支持与实现。

数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持。

二、数据仓库的基本概念


数据源
从外部为数据仓库系统提供进行分析的数据,这些数据来源称为数据仓库的数据源。数据源并不局限于传统数据库,也可以是非结构化的信息数据。

ETL
ETL 是将业务系统中的数据经过抽取(Extract)、**清洗转换(Transform)和加载(Load)**到数据仓库的过程,目的是将企业中的分散、凌乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。

ETL 处理分为五大模块,分别是:

数据抽取
数据清洗
数据转换
规则检查
数据装载。
各模块之间灵活组合,形成 ETL 处理流程。下面简单介绍一下各模块之间的功能。

数据抽取
数据仓库既然是面向主题的,那么在数据源中,只有那些与主题相关的内容才是必需的、有使用价值的。因此,必须以主题的需求为依据,对数据源的内容进行有目的地选择,这一过程被称为“数据抽取”(Data Extraction)。对于数据的抽取,是从各个不同的数据源抽取到 ODS(Operational Data Store,操作型数据存储)中。

1)对于与存放 DW 的数据库系统相同的数据源处理方法

一般情况下,DBMS(Mysql、SQLServer)都会提供数据库连接功能,在 DW 数据库服务器和原业务系统之间建立直接的连接关系,接下来就可以写查询语句直接访问。

2)对于与存放 DW 的数据库系统不同的数据源处理方法

一种是通过工具将数据源导出成 .txt 或者 .xls 文件,然后再将这些源系统文件导入到 ODS 中。另一种方法是通过程序接口来完成。

3)对于文件类型数据源(.txt/.xls)

业务人员可以利用数据库工具将这些数据导入到指定的数据库,然后从指定的数据库中抽取。或者业务人员借助工具实现。

4)增量更新问题

一般情况,业务系统会记录业务发生的时间,可以用作增量的标志,每次抽取之前首先判断 ODS 中记录最大的时间,然后根据这个时间去业务系统取大于这个时间的所有记录。

数据清洗
一般情况下,数据仓库分为 ODS、DW 两部分。通过的做法是从业务系统到 ODS 做清洗,将脏数据和不完整数据过滤掉,再从 ODS 到 DW 的过程中转换,进行一些业务规则的计算和聚合。

为了控制这些 “脏数据” 对数据仓库分析结果的影响程度,必须采取各种有效的措施,对其进行处理,这一处理过程称为 “数据清洗”(Data Transform)。

对于缺省值:产生的原因可能是,信息暂时无法获取、信息被遗漏、属性值不存在,比如一个儿童的固定收入等。解决方法是,通过简单的统计分析,得到含有缺失值的属性个数,以及每个属性的未缺失数、缺失数和缺失率。删除含有缺失值的记录、对可能值进行插补和不处理三种情况。

对于异常值:产生的原因可能是:业务系统检查不充分。解决方法是,先对变量做一个描述性统计,进而查看哪些数据是不合理的。最常用的统计量是最大值和最小值,然后判断变量是否超过了合理的范围。如果数据是符合正态分布,在原则下,异常值被定义为一组测定值中与平均值的偏差超过 3 倍标准的值,如果不符合正态分布,也可以用原理平均值的多少倍标准差来描述。

对于不一致值:产生的原因可能是:被挖掘的数据是来自不同的数据源、对于重复性存放的数据未能进行一致性更新造成。例如:两张表中都存储了用户电话号码,但在用户的号码发生改变时只更新了一张表中的数据,那么两张表中就有了不一致的数据。解决办法是,注意数据抽取的规则,对于业务数据变动的控制应该保证数据仓库中数据抽取是最新数据。

数据转换
数据转换的任务主要是进行不一致的数据转换、数据粒度的转换和一些业务规则的计算等。

不一致的数据转换:这个过程是一个整合的过程,将不同业务系统的相同类型的数据统一,比如同一个用户在用户管理系统的编码是 XX0001 ,而在订单系统的编码是 YY0001 ,这样在抽取过来之后统一转换成一个编码;

数据粒度的转换:业务系统一般存储粒度较小的数据,而数据仓库中的数据是用来分析的,不需要粒度很小的数据,一般情况下,会将业务系统数据按照数据仓库粒度进行聚合;

业务规则的计算:不同的企业有不同的业务规则,不同的数据指标,这些指标有时候不能简单的加加减减就能完成,这个时候需要在 ETL 中将这些数据指标计算好了之后存储在数据仓库中,供分析使用。

元数据
它是关于数据仓库中数据、操作数据以及应用程序的结构和意义的描述信息。它的作用类似于数据库管理系统的数据字典,保存了逻辑数据结构、文件、地址和索引等信息。

广义上讲,在数据仓库中,元数据描述了数据仓库内数据的结构和建立方法的数据。

元数据是整个数据仓库的核心部件,元数据管理器是企业级数据仓库中的关键部件,贯穿数据仓库构建的整个过程,直接影响着数据仓库的构建、使用和维护。

将数据仓库功能区域包括数据获取、数据存储和信息传递三个部分,按照这三个功能区域可以相应地将元数据分为数据获取区域元数据、数据存储区域元数据和信息传递区域元数据。

  • 7
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值