什么是数据仓库

什么是数据仓库:

介绍数仓之前,我们先看看数仓能做什么640?wx_fmt=jpeg


数据仓库对数据的工程治理、统一管理:

640?wx_fmt=png

基于大数据的互联网行业主要应用:640?wx_fmt=png




     数据仓库的概念最早源自于,企业希望有一种架构将业务处理系统和分析处理分为不同的层次。

    20世纪80年代,建立TA2(Technical Architecture2)规范,明确定义了分析系统的四个部分:数据获取、数据访问、目录、用户服务。

    1988年,IBM第一次提出信息仓库的概念:一个结构化的环境,能支持最终用户管理其全部的业务,并支持信息技术部门保证数据质量。1991年,Bill Inmon出版《 Building the Data Warehouse 》提出了更具体的数据仓库原则:

  • 数据仓库是面向主题的

  • 集成的

  • 包含历史的

  • 不可更新的

  • 面向决策支持的

  • 面向全企业的

  • 最明细的数据存储

  • 数据快照式的数据获取

    尽管数据仓库建模方法论是一致的,但由于所面临的行业、场景的不同,在互联网领域,基于大数据的数据仓库建设无法按照原有的项目流程、开发模式进行,更多的是需要结合新的技术体系、业务场景进行灵活的调整。


数仓发展

 数仓的发展大致经历了三个阶段:

  • 简单报表阶段:这个阶段,系统的主要目标是解决一些日常的工作中业务人员需要的报表,以及生成一些简单的能够帮助领导进行决策所需要的汇总数据。这个阶段的大部分表现形式为数据库和前端报表工具。


  • 数据集市阶段:这个阶段,主要是根据某个业务部门的需要,进行一定的数据的采集,整理,按照业务人员的需要,进行多维报表的展现,能够提供对特定业务指导的数据,并且能够提供特定的领导决策数据。


  • 数据仓库阶段:这个阶段,主要是按照一定的数据模型,对整个企业的数据进行采集,整理,并且能够按照各个业务部门的需要,提供跨部门的,完全一致的业务报表数据,能够通过数据仓库生成对对业务具有指导性的数据,同时,为领导决策提供全面的数据支持。

    通过数据仓库建设的发展阶段,我们能够看出,数据仓库的建设和数据集市的建设的重要区别就在于数据模型的支持。因此,数据模型的建设,对于我们数据仓库的建设,有着决定性的意义。


数据仓库和数据库的区别

640?wx_fmt=png


数据仓库的分层架构

     按照数据流入流出的过程,数据仓库架构可分为三层—>源数据、数据仓库、数据应用。

  • 源数据层(ODS):此层数据无任何更改,直接沿用外围系统数据结构和数据,不对外开放;为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。属于贴元层,存放的是原始数据。

  • 数据仓库层(DW):也称为细节层,DW层的数据应该是一致的、准确的、干净的数据,即对源系统数据进行了清洗(去除了杂质)后的数据。用于数据分析。

  • 数据应用层(DA或APP):前端应用直接读取的数据源;根据报表、专题分析需求而计算生成的数据。用于结果数据展示。

    这样的三层分层架构,是最基础的分层设计,公司可根据自己的实际业务需求,对这样的分层进行升级,像阿里和京东都将数仓分为了4层,并各有自己的数仓分层方式。


数据仓库建模

       数据模型是抽象描述现实世界的一种工具和方法,是通过抽象的实体及实体之间联系的形式,来表示现实世界中事务的相互关系的一种映射。通过这种实体与实体间的关系,来联系,表示业务中具体的业务之间的联系。另外数据仓库模型的架构和数据仓库整体的架构是紧密联系的。根据上面的分层架构思想,我们将数据仓库建模分为5个部分:System of Record(系统记录域)、HouseKeeping(内部管理域)、Summary of Area(汇总域)、Analysis Area(分析域)、FeedBack  Area(反馈域)。分别用于对数据的存储、管理、汇总、分析。针对实际业务我们可以将数仓建模的设计分为以下4个部分。

  • 业务建模

  • 领域概念建模

  • 逻辑建模

  • 物理建模

    知道了数仓建模的步骤,那么我们怎么建模的,下面有几种经典的数仓建模方式:

  • 范式建模:从关系型数据库的角度出发,结合了业务系统的数据模型,可以比较方便的实现数建模。但是由于是建立在关系型数据库中,所以其缺点是关系型数据库限制了数模型的灵活性。

  • 维度建模:是一种被广泛应用的建模方式,按照维度进行预先的统计、分析、排序等预处理,极大的提高了仓库的处理能力,但缺点也很明显,这些大量的预计算造成了大量的数据冗余。

  • 实体建模法:一种比较少见的数建模方式,源自于一种哲学流派,将客观世界细分为一个一个实体,客观世界则是实体与实体之间的关系组成。简单地举个例子说就是:把“我要努力学习大数据”这个客观事件分为“我”、“要努力”、“大数据”这三个部分。“我”是实体,“要努力”是事件说明,"学习大数据"是业务过程。由于这种建模方式是对现实世界的抽象,所以只能局限在业务建模和领域概念建模上,而在逻辑建模和物理建模上范式建模法和维度建模比较擅长。

未来发展方向:

数仓在未来大数据领域的应用:

  • 数据分析、数据挖掘、人工智能、机器学习、风险控制、无人驾驶

  • 数据化运营、精准运营

  • 广告精准、智能投放

就业情况:

640?wx_fmt=png


关注我们smiley_63.pngsmiley_63.pngsmiley_66.png

640?wx_fmt=png


  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值