数据仓库,数据集市,数据孤岛,数据湖,数据中台

数据仓库,数据集市,数据孤岛,数据湖,数据中台

1.数据仓库

  • 定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定

  • 作用

    • 数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库
    • 数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改
      • 这解释一下主题主题域
        • 主题域:主题域我们可以理解为是一个分析领域,比如订单分析
        • 主题:每一个主题基本对应一个宏观分析领域,就拿上面的主题域订单分析来说,它所涉及到的分析对象为商品、地域、时间、类别,用户等,这些分析对象就是主题
  • 数仓是一种思想,数仓是一种规范,数仓是一种解决方案,数据仓库是一个功能概念,是将企业的各业务系统产生的基础数据,通过维度建模的方式,将业务数据划分为多个主题(集市)统一存储,统一管理。

  • 应用场景:一般都是作为商业智能系统、数据仪表盘等可视化报表服务的数据源。

2.数据集市

  • 定义:数据集市可以理解为是一种"小型数据仓库",它只包含单个主题,且关注范围也非全局,它属于数据仓库的下层
    • 就拿公司来形容,数据仓库就是全公司,数据集市就是部门
  • 分类
    • 独立数据集市,这类数据集市有自己的源数据库和ETL架构;
    • 非独立数据集市,这种数据集市没有自己的源系统,它的数据来自数据仓库
  • 优点:相比数据仓库数据集市是数仓之上更聚焦的业务主题合集,更偏向于应对业务数据快速高效应用的需求
  • 应用场景
    • 一般用于商业智能系统中探索式和交互式数据分析应用
  • 数据集市是一个结构概念,它可以说是数据仓库的一个子集

3.数据孤岛

  • 定义

    • 企业发展到一定阶段,出现多个事业部,每个事业部都有各自数据,事业部之间的数据往往都各自存储,各自定义。每个事业部的数据就像一个个孤岛一样无法(或者极其困难)和企业内部的其他数据进行连接互动。”我们把这样的情况称为数据孤岛
    • 简单说就是数据间缺乏关联性,数据库彼此无法兼容
  • 造成的原因

    • 业务系统之间各自为政、相互独立造成的数据孤岛,体现在业务不集成、流程不互通、数据不共享
    • 最重要还是因为企业的工作是以部门为主的功能型,这样的话每个部门都会有业务数据的产生,有对数据保存和使用的需要,不同部门对数据的定义和使用可能存在比较大的差异,所以各部门之间的数据不能互通
    • 信息部门建设的相对滞后,如果信息部门不能尽快满足业务对数据处理的要求,那业务部门就可能独自开发业务系统,这种情况还是普遍存在
  • 分类

    • 物理性数据孤岛
      • 数据在不同部门相互独立存储,独立维护,彼此间相互孤立,形成了物理上的孤岛
    • 逻辑性数据孤岛
      • 不同部门站在自己的角度对数据进行理解和定义,使得一些相同的数据被赋予了不同的含义,无形中加大了跨部门数据合作的沟通成本

4.数据湖

  • 定义
    • 2010年,Pentaho首席技术官James Dixon创造了“数据湖”一词
    • 他把数据集市描述成一瓶清洗过的、包装过的和结构化易于使用的水
    • 数据湖更像是在自然状态下的水,数据流从源系统流向这个湖。用户可以在数据湖里校验,取样或完全的使用数据
    • 可以理解为为未经处理和包装的原生状态“水库”
  • 特点
    • 从源系统导入所有的数据,没有数据流失。
    • 数据存储时没有经过转换或只是简单的处理。
    • 数据转换和定义schema 用于满足分析需求。
  • 应用场景
    • 可作为数据仓库或者数据集市的数据源
  • 数据湖是一种数据存储理念,存储企业各种各样的原始数据的大型仓库,包括结构化、非结构、二
    进制图像、音频、视频等等

5.数据中台

在这里插入图片描述

  • 定义

    • 数据中台是在政企数字化转型过程中,对各业务单元业务与数据的沉淀,构建包括数据技术、数据治理、数据运营等数据建设、管理、使用体系,实现数据赋能。数据中台,是新型信息化应用框架体系中的核心。
  • 特点

    • 利用大数据技术,对海量数据进行统一采集、计算、存储,并使用统一的数据规范进行管理,将企业内部所有数据统一处理形成标准化数据,挖掘出对企业最有价值的数据,构建企业数据资产库,提供一致的、高可用大数据服务。
    • 数据中台不是一套软件,也不是一个信息系统,而是一系列数据组件的集合,企业基于自身的信息化建设基础、数据基础以及业务特点对数据中台的能力进行定义,基于能力定义利用数据组件搭建自己的数据中台
  • 应用:政企行业大数据采集、治理、分析挖掘、指标应用等

  • 数据中台是一个逻辑概念,为业务提供服务的主要方式是数据API,它包括了数据仓库,大数据、数据治理领域的内容

  • 2
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
大数据(Big Data)是指规模庞大、复杂度高且难以用传统数据处理方法进行捕捉、管理和处理的数据集合。它通常具有以下三个特征: 数据量大:大数据指的是数据集的规模非常庞大,远远超出了传统数据处理工具的能力范围。这些数据集可能包含数十亿甚至数万亿的记录。 复杂度高:大数据往往包含多种类型和格式的数据,例如结构化数据(如关系型数据库中的数据)、半结构化数据(如XML文件)和非结构化数据(如文本、图像和音频等)。这些数据的复杂性使得处理和分析变得更加困难。 处理速度快:大数据处理要求在短时间内处理和分析大规模的数据。传统的数据处理方法往往无法满足实时或近实时处理的需求。 大数据的出现主要是由于以下几个因素的影响: 数据的爆发性增长:随着互联网的普及和各种传感器、设备的广泛应用,数据的产生和积累呈现爆发式增长的趋势。 新型数据源的涌现:除了传统的结构化数据,越来越多的非结构化和半结构化数据源涌现,例如社交媒体数据、日志文件、传感器数据、地理位置数据等。 技术的进步:大数据处理的技术工具和技术方法得到了快速发展,例如分布式计算、云计算、并行处理、机器学习和人工智能等技术的应用,使得大数据的存储、管理和分析变得可行和高效。 大数据的处理和分析可以带来许多潜在的好处,包括更深入的洞察力、更准确的决策支持、更精细的个性化服务、更高效的资源利用和创新等。在各个领域,如商业、医疗、金融、交通、科学研究等,大数据正发挥着重要的作用,并为我们带来了新的机遇和挑战。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值