数据仓库介绍

小节一:数仓介绍

小节二:离线数仓应用应用架构

你好,我是七月,本专栏主要讲述我在职业生涯中应用的关于数仓相关的知识体系,初期主要以离线数仓为主。编写该专栏一共有两个目的,其一是梳理自己多年工作积累的知识,做到温故而知新;其二是分享数仓相关的基础知识给大家,抛砖引玉。

随着IT行业的发展,数据分析、大数据、数仓、数据中台等概念不仅仅局限在互联网行业,传统中小型企业也需要支撑复杂的分析需求。得益于发展良好的开源项目,构建一个数仓不需要支付任何软件费用(当然商业软件更成熟、集成度高),只需要提供机器和专业人员即可构建。本专栏将为大家讲述一个基础的数仓如何搭建,及相关的开源工具和开发方法。

本节我们一起了解下什么是数据仓库

这里粘贴百度百科关于数仓的介绍:

数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。

围绕以下几点我们拆解下数仓概念:

1、数仓的核心价值

一句话数据驱动决策。区别于感性的拍脑门、个人的经验判断。数据驱动就是在接受世界不确定性的前提下依赖客观存在的数据事实驱动个人对事物发展决策的一种世界观。这方面大家可以了解下贝叶斯概率。

2、为什么需要数仓

数据仓库即将整个企业的可支持分析决策的数据集成到一起进行存储、管理、应用。区别于以往的基于应用系统本身衍生出来的数据报表分析功能,数仓主要将所有分析数据都放在另外的统一的存储中管理。这样的好处在于数据分析不再占用应用系统的资源,同时也不用受限于传统OLTP(在线事务处理)理念。而是根据OLAP(在线分析处理)理念进行单独的模型构建、应用开发、分析产出,这将大大加速数据的分析过程,便于决策能即时、高效的下达,当然还有数据挖掘等更深度的应用这里不做讲解。

这里额外要说明的是任何方案都是在需求的推动下产出的,传统的分析方案不是不能支持数据分析,而是越来越无法满足分析人员和决策者对数据分析的多样性、即时性、安全性

统一性等要求,如果你原来的方案就能满足那你就不需要数仓。

3、OLAP

关于事务处理和分析处理的理念区别带来的设计差异这里举个例子。例如一张订单流水表在业务系统中为了减小它的表大小、提高它的并发读写性能我们严格遵守三范式将一些订单中的用户详细信息、商品详细信息都放到额外的表中存储,甚至将订单本身的常用属性和不常用属性放到不同的表中存储。而在数仓中我们往往不再遵守三范式原则。我们可以将订单的所有属性及其衍生的用户属性、商品属性冗余到一张大宽表中用以分析使用,因为数仓不需要支持高并发的读写,同时也不需要提供严格的事务。它往往需要让少数的分析人员能在尽量少(分析简单、查询快速)的时间中查询统计出他们需要的信息。这里简单举例后续会单列章节讲解。

4、数仓构建过程

上述例子我们能明显发觉数仓和传统的业务系统职能截然不同,数仓有自己的一套新的体系架构。它需要数据开发人员了解业务系统的库表结构及数据情况。

需要通过数据同步、动作捕获(CDC)技术将业务系统的价值数据同步到数据仓库中,然后根据业务需求及体系架构将数据存储到对应的数据库中。

同时根据抽象模型的分层结构将数据存储到不同的逻辑分层中,每一层之间需要进行数据的ETL(Extract-Transform-Load)处理,将ETL脚本配置为定时任务。

还要对表数据进行验证、监控告警,最后根据分析需求提供结果,结果可以是库表、可以是接口、可以是BI系统等等。

另外我们要在元数据管理系统中维护上述所有过程涉及的应用脚本、跑批任务、描述信息等等,以便对数据进行管理。

总结:本小结我们主要介绍了数仓的概念,明确了数仓的核心价值,阐述了数仓与以往分析方式的不同,同时也简单说明了OLAP的理念以及数仓的构建过程。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值