数据仓库介绍

一、数据仓库基础介绍DW数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(Decision Making Support)。ODS(Operational Data Store):操作型数据存储。EDW(Enterprise Data Warehouse) 是企业级数据仓库数据集市:部门级别的数据集合,一般基于数据仓库
摘要由CSDN通过智能技术生成

一、数据仓库基础介绍

DW数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合,用于支持管理决策(Decision Making Support)。
ODS(Operational Data Store):操作型数据存储。
EDW(Enterprise Data Warehouse) 是企业级数据仓库
数据集市:部门级别的数据集合,一般基于数据仓库基础之上构建,为某个单独的应用主题构建相关的数据。
	两者的区别:
	*ODS数据一般采用贴源的存储格式,数据结构尽量与源系统保持一致
	*ODS存储历史数据一般相对EDW会比较短;
	*ODS适合与快速的系统接入和基于此之上的应用实现
	*EDW一般基于ODS之上构建,需要进行数据建模,保存较长的历史数据,如果ods有数据,则edw数据来源自ods,也可以直接来源自生产系统。
	*EDW相对会有稳定的模型结构,数据结构与源系统不同。
	*EDW是将ODS中的数据进行模型拆并,构建而成的。

二、ETL(数据仓库技术)

异构数据源:数据结构、存取方式和形式不一样的多个数据源,比如来自同一系统的数据由数据库数据、Excel数据和TXT数据。
ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,分三部分:数据抽取、数据的清洗转换、数据的加载。ETL的实现有多种方法,常用的有三种。一种是借助ETL工具(如Oracle的OWB、SQL Server 2000的DTS、SQL Server2005的SSIS服务、Informatic等)实现,一种是SQL方式实现,另外一种是ETL工具和SQL相结合。
**数据的抽取**
1、对于与存放DW的数据库系统相同的数据源处理方法
这一类数据源在设计上比较容易。一般情况下,DBMS(SQLServer、Oracle)都会提供数据库链接功能,在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select 语句直接访问。
2、对于与DW数据库系统不同的数据源的处理方法
对于这一类数据源,一般情况下也可以通过ODBC的方式建立数据库链接——如SQL Server和Oracle之间。如果不能建立数据库链接,可以有两种方式完成,一种是通过工具将源数据导出成.txt或者是.xls文件,然后再将这些源系统文件导入到ODS中。另外一种方法是通过程序接口来完成。
**数据的清洗与转换**
1、数据清洗
数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。
不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。
(1)不完整的数据:这一类数据主要是一些应该有的信息缺失,如供应商的名称、分公司的名称、客户的区域信息缺失、业务系统中主表与明细表不能匹配等。对于这一类数据过滤出来,按缺失的内容分别写入不同Excel文件向客户提交,要求在规定的时间内补全。补全后才写入数据仓库。
(2)错误的数据:这一类错误产生的原因是业务系统不够健全,在接收输入后没有进行判断直接写入后台数据库造成的,比如数值数据输成全角数字字符、字符串数据后面
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值