数据湖及其相关概念

一、数据湖定义

下面是维基百科对于数据的定义:
在这里插入图片描述
其,大概的意思就是将没有经过清洗的等操作的原生数据,将这些数据进行相关数据的存储,这些数据可以运用于计算机视觉,大数据分析甚至机器的数据支撑。
数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。 目前,Hadoop是最常用的部署数据湖的技术,所以很多人会觉得数据湖就是Hadoop集群。数据湖是一个概念,而Hadoop是用于实现这个概念的技术。数据湖能处理所有类型的数据,如结构化数据,非结构化数据,半结构化数据等,数据的类型依赖于数据源系统的原始数据格式。非结构化数据(语音、图片、视频等)
根据海量的数据,挖掘出规律,反应给运营部门。
拥有非常强的计算能力用于处理数据。而不同与数据仓库的是:
数据仓库主要处理历史的、结构化的数据,而且这些数据必须与数据仓库事先定义的模型吻合。数据仓库分析的指标都是产品经理提前规定好的。按需分析数据。(日活、新增、留存、转化率等等)。

二、数据湖开源插件

现在基于数据湖的开发拥有三个框架,分别是hudi、iceberg和Delta lake这三个框架
1、hudi
下图为hudi的图标
在这里插入图片描述
目前来说,上述的这三个数据湖的开原框架,只有hudi相对来说较为完善。由于hudi和spark都是同一个公司设计的软件,因此在前期,其和spark是属于强绑定的状态,后来经过时间的发展,其代码解除了与spark的rdd算子的强绑定,进而可以支持flink。如果在目前急需使用数据湖相关技术,建议采取使用hudi技术。
2、iceberg
iceberg相对于hudi来说,其技术的成熟性没有hudi高。下图为iceberg的图标
在这里插入图片描述

相对于hudi对数据快照的,iceberg的核心思想就是在时间轴上跟踪表的所有变化。iceberg与现有主流计算型软件都没有强绑定,其可以在某种程度上减少了相关文件的之间的配置的困难问题。
3、Delta lake
Delta lake相对于上述的两个框架来说,其成熟程度没有上述两个框架成熟
在这里插入图片描述

Delta Lake是一个数据湖存储引擎,可以支持各种各样的数据接入,这些数据源可能是 Kafka、Kinesis、Spark 或者是其他数据湖,这些数据接入 Delta Lake 之后就存储在Bronze 层,Bronze 层可以为大数据常用的分布式存储 HDFS 或其他存储,这也保证了数据湖中数据存储的可扩展性。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

绝域时空

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值