数据仓库

为什么要分层

我们对数据进行分层的一个主要原因就是希望在管理数据的时候,能对数据有一个更加清晰的掌控,详细来讲,主要有下面几个原因:

  1. 清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。
  2. 数据血缘追踪:简单来讲可以这样理解,我们最终给业务诚信的是一能直接使用的张业务表,但是它的来源有很多,如果有一张来源表出问题了,我们希望能够快速准确地定位到问题,并清楚它的危害范围。
  3. 减少重复开发:规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。
  4. 把复杂问题简单化。讲一个复杂的任务分解成多个步骤来完成,每一层只处理单一的步骤,比较简单和容易理解。而且便于
  5. 维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,只需要从有问题的步骤开始修复。屏蔽原始数据的异常。
  6. 屏蔽业务的影响,不必改一次业务就需要重新接入数据。
    数据体系中的各个表的依赖就像是电线的流向一样,我们都希望它是很规整,便于管理的。但是,最终的结果大多是第一幅图,而非第二幅图。
数据分层
ODS层 (operational data store): 数据操作层(已经格式化的日志的汇总)
DWD层 (data warehouse detail): 事实明细层(依据业务过程建模,即业务的ETL,)
DWS层 (data warehouse service): 通用维度汇总层(依据通用需求维度进行数据统计)
ADS层 (autobiography service): 个性化维度汇总层(依据个性化需求维度进行数据统计)
DIM层 (dimension): 维表层(存放基础信息)
数据分层Other
SOURCE层(直接落地的数据层)
DW (data warehouse): 数据仓库 (进行数据处理,存储的仓库)
	STG (short time storage):临时数据存储层 (临时存放各种异构数据,将其解密、抽取、存储)
	ODS层 (operational data store): 数据操作层(已经格式化的日志的汇总处理,通用数据ETL处理)
	BDS层 (business data store): 业务数据层(在对通用处理后的数据,进行本公司业务标准的数据处理,并进行维表关联)
	IDS层 (index data store): 指标数据层(各种指标的结果汇总表)
DIM层 (dimension): 维表层(存放基础信息)
数据稽核层(存放数仓中每天的结果条数、执行时间等)
数据流向

这里写图片描述

ETL (Extract Transform Load)
ETL 是对数据的加工过程,它包括了数据抽取、数据清洗、数据入库等一系列操作,大部分和数据处理清洗相关的操作都可以算是 ETL。

​一、数据抽取:

可以理解为是把源数据的数据抽取到ODS
  1. 源数据类型:
    文本文件,如用户浏览网站产生的日志文件,业务系统以文件形式提供的数据等;
    其他外部数据,如手工录入的数据等;
  2. 抽取的频率:
    大多是每天抽取一次,​也可以根据业务需求每小时甚至每分钟抽取,当然得考虑源数据库系统能否承受;

二、数据清洗:

 顾名思义​,就是把不需要的,和不符合规范的数据进行处理。数据清洗最好放在抽取的环节进行,这样可以节约后续的计算和存储成本;

​数据清洗主要包括以下几个方面:

  1. 空值处理;根据业务需要,可以将空值替换为特定的值或者直接过滤掉;
  2. 验证数据正确性;主要是把不符合​业务含义的数据做一处理,比如,把一个表示数量的字段中的字符串替换为0,把一个日期字段的非日期字符串过滤掉等等;
  3. 规范数据格式;比如,把所有的日期都格式化成YYYY-MM-DD的格式等;
  4. ​数据转码;把一个源数据中用编码表示的字段,通过关联编码表,转换成代表其真实意义的值等等;
  5. 数据标准,统一;比如在源数据中表示男女的方式有很多种,在抽取的时候,直接根据模型中定义的值做转化,统一表示男女;
  6. 其他业务规则定义的数据清洗。。。

数据仓库文章: https://dantezhao.gitbooks.io/data-warehouse-in-action/content/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值