数据仓库介绍

一、数据仓库概念

  • 数据仓库(DataWarehouse)是一个面向主题的(Subject Oriented)、数据集成的(Integrated)、相对稳定(非易失)的(Non-Volatile)、反映历史变化(时变)(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
  • 数据仓库是决策支持系统(dss)的结构化数据环境,决策支持系统基于数据仓库进行联机分析处理 ( OLAP ) 。常用的技术有,HDFS、HBase、Hive、SparkSql等。

二、数据仓库系统流程

  • 数据仓库系统的结构图
    在这里插入图片描述
  • 系统各部分的执行流程
    • 确定分析所依赖的源数据。
    • 通过ETL将源数据采集到数据仓库。
    • 数据按照数据仓库提供的主题结构进行存储。
    • 根据各部门的业务分析要求创建数据集市(数据仓库的子集)。
    • 决策分析、报表等应用系统从数据仓库查询数据、分析数据。
    • 用户通过应用系统查询分析结果、报表。

四、源数据

源数据是指用于分析的原始数据,这一步主要是根据分析需求确定源数据,这个数据分布在内
部系统和外部分系统中,内部数据主要是企业ERP系统、外部数据是指企业外部分系统所产生的数
据,通常是指行业数据。源数据最大的特点是格式不统一,如果要对源数据进行分析需要经过ETL
对数据进行集中获取、过虑、转换等处理。

五、ETL

ETL(Extra, Transfer, Load)包括数据抽取、数据转换、数据装载三个过程。

  • 抽取(数据抽取是从各各业务系统、外部系统等源数据处采集源数据。)
  • 转换(采集过来的源数据如果要存储到数据仓库需要按照一定的数据格式对源数据进行转换,常
    见的转换方式有数据类型转换、格式转换、缺失值补充、数据综合等。)
  • 装载(转换后的数据就可以存储到数据仓库中,这个过程要装载。数据装载通常是按一定的频率
    进行的,比如每天装载当天的订单数据、每星期装载客户信息等。)
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值