数据简介(一)

数据简介

先安排一张图!

在这里插入图片描述

数据孤岛(现象):

企业发展到一定阶段,出现多个事业部,每个事业部都有各自数据,事业部之间的数据往往都各自存储,各自定义。每个事业部的数据就像一个个孤岛一样无法(或者极其困难)和企业内部的其他数据进行连接互动。
我们把这样的情况称为数据孤岛。简单说就是数据间缺乏关联性,数据库彼此无法兼容。

专业人士把数据孤岛分为物理性和逻辑性两种。

物理性:数据孤岛指的是,数据在不同部门相互独立存储,独立维护,彼此间相互孤立,形成了物理上的孤岛。
逻辑性:数据孤岛指的是,不同部门站在自己的角度对数据进行理解和定义,使得一些相同的数据被赋予了不同的含义,无形中加大了跨部门数据合作的沟通成本。

数据湖(Data Lake):

是一种数据存储理念——即在系统或存储库中以自然格式存储数据的方法。
通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据,就像是未经处理的和包装的原生态“水库”,目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群,。
数据湖:可以包括来自
结构化数据:关系数据库(行 , 列)
半结构化数据:(CSV,日志,XML,JSON)
非结构化数据:(电子邮件,文档,PDF)
二进制数据:(图像,音频,视频)

数据仓库(Data Warehouse):

是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。数据仓库算是优化的数据库,用于分析来自事务系统和业务线应用程序的关系数据,事先定义数据结构和约束来优化sql查询速度,其中结果通常用于操作报告和分析,数据经过ETL,可以充当用户信任的数据源。

数据集市(data marts):

数据集市就是满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成面向决策分析需求的数据立方体。从范围上来说,数据是从企业范围的数据库、数据仓库,或者是更加专业的数据仓库中抽取出来的,数据集市存储为特定用户预先计算好的数据,从而满足用户对性能的需求。数据集市可以在一定程度上缓解访问数据仓库的瓶颈。

理解:数据集市(data marts)数据仓库(Data Warehouse)数据湖(Data Lake)
数据湖:来自山间的天然山泉
数据仓库:矿泉水的仓库
数据集市:超市中的矿泉水

数据治理:

数据仓库:实现报告和分析。
数据控制:数据管理和使用层面之上进行规划、监督和控制。
数据开发:数据的分析、设计、实施、测试、部署、维护等工作。
数据架构:定义数据资产管理蓝图。
数据操作:提供从数据获取到清除的技术支持。
数据安全:确保隐私、保密性和适当的访问权限等。
数据质量:定义、监测和提高数据质量。
主数据管理:管理数据的黄金版本和副本。
元数据管理:元数据的整合、控制以及提供元数据。
文件和内容管理:管理数据库以外的数据

数据中台(Data middleground):

首先中台不是平台!!!
数据中台是指通过企业内外部多源异构的数据采集、治理、建模、分析,应用,使数据对内优化管理提高业务,对外可以数据合作价值释放,成为企业数据资产管理中枢。

在数据开发中,核心数据模型的变化是相对缓慢的,同时,对数据进行维护的工作量也非常大;但业务创新的速度、对数据提出的需求的变化,是非常快速的。

数据中台建立后,会形成数据API,为企业和客户提供高效各种数据服务服务。

数据中台的出现,就是为了弥补数据开发和应用开发之间,由于开发速度不匹配,出现的响应力跟不上的问题。

(单纯的个人理解,如有错误望各位大佬指点!🤝)

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值