数据仓库技术及应用(数据仓库概述)

1.数据仓库概述

1.1 数据仓库的定义

Bill Inmon:数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。

Ralph Kimball:数据仓库是一个将源系统数据抽取、清洗、规格化、提交到维度数据存储的系统,为决策的制定提供查询和分析功能的支持与实现。

数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持。

数据仓库是一种面向商务智能(BI)活动(尤其是分析)的数据管理系统,它仅适用于查询和分析,通常涉及大量的历史数据。

1.2 数据仓库的基本概念

  • 数据源

从外部为数据仓库系统提供进行分析的数据,这些数据来源称为数据仓库的数据源。数据源并不局限于传统数据库,也可以是非结构化的信息数据。

  • ETL

ETL 是将业务系统中的数据经过抽取(Extract)、**清洗转换(Transform)和加载(Load)**到数据仓库的过程,目的是将企业中的分散、凌乱、标准不统一的数据整合到一起,为企业的决策提供分析依据。

ETL 处理分为五大模块,分别是:

数据抽取
数据清洗
数据转换
规则检查
数据装载。

1.3 数据仓库通常包含以下要素:

  1. 一个用于存储和管理数据的关系数据库
  2. 一个用于分析前数据准备的提取、加载和转换(ELT)解决方案
  3. 统计分析、报告和数据挖掘功能
  4. 用于数据可视化和展现的客户端分析工具

1.4 数据仓库具有以下特点:

  • 面向主题:数据仓库可以高效分析关于特定主题或职能领域(例如销售)的数据。
  • 集成:数据仓库可在不同来源的不同数据类型之间建立一致性。
  • 相对稳定:进入数据仓库后,数据将保持稳定,不会发生改变
  • 反映历史变化:数据仓库分析着眼于反映历史变化。

1.5 通用数据仓库架构具有以下特点:

  1. 简单:所有数据仓库都采用同一基本设计,将元数据、概要数据和原始数据全部存储在中央信息库中。信息库一端由数据源馈送信息,另一端则供最终用户访问,以便进行分析、报告和数据挖掘。
  2. 通过暂存区简化数据准备:将操作型数据置入数据仓库之前,必须首先进行清理和处理。这一步骤可通过编程方式完成,但很多数据仓库会创建一个暂存区来简化数据准备工作。
  3.  星型结构:通过在中央信息库和最终用户之间创建数据集市,企业可以对数据仓库进行自定义,灵活满足各种业务线的需求。换言之,准备就绪后,数据不会立即进入数据仓库,而是会被移至适当的数据集市。
  4. 沙盒:沙盒可提供一个专有的安全区域,帮助企业快速、非正式地探索新的数据集或新的数据分析方式,而无需遵守或遵循数据仓库的正式规则和协议。

1.6 数据仓库的进化:从数据分析到 AI 和机器学习

2.什么是云数据仓库

2.1 云数据仓库的定义

云数据仓库使用云技术来提取和存储不同数据源的数据。

2.2 云数据仓库的优点

  • 简单易用    
  • 易于管理    
  • 节约成本

3 .任何数据仓库设计都必须解决以下问题:

  • 具体的数据内容    
  • 各数据组内部及相互之间的关系    
  • 支撑数据仓库的系统环境    
  • 数据转换类型
  • 数据刷新频率
  • 12
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值