什么是Delta Lake(数据湖框架),以及Delta Lake特性和如何使用


Delta Lake概念

了解Delta Lake之前最好先去了解一下什么是数据湖,以及数据湖基于Hadoop、Spark的实现:

数据湖的概念(包含数据中台、数据湖、数据仓库、数据集市的区别)–了解数据湖,这一篇就够了
数据分析流程中的Lambda架构,以及数据湖基于Hadoop、Spark的实现

Delta Lake的公司和spark的商业化公司是同一家开发的(Databricks公司)

1、Delta Lake特性

[图片]

重要特性解读:

  • 1、ACID事务控制:经过迭代处理产生的中间数据如果缺乏事务控制,就会导致一步错步步错(对数据的操作会记录在事务日志)
  • 2、数据版本控制:类似于Git的代码版本,可回滚数据版本
  • 3、可伸缩的元数据处理:如果中间数据过多,数据版本过多,会导致数据内容超级庞大,就会导致元数据也很庞大,元数据的处理就会很麻烦,而Delta
    Lake通过Spark的强大的并行计算能力,对元数据进行管理和计算,如下图:

[图片]

  • 4、审核历史记录:也就是对事务日志的审计,比如金融行业,对审计要求很高
  • 5、统一的批处理和流处理的source和sink:就是流批一体化,流和批进入Delta Lake都会变成Delta Lake Table表,如下图:

[图片]

2、Delta Lake如何使用

一句话概括(重点):

本质上还是使用原有的Spark、SparkSQL方式处理数据,处理流程也不变(原来使用Spark的处理流程就是:对中间数据的迭代处理),变化的地方在于,存储数据的过程加入了Delta Lake(也就是使用Delta Lake提供的API进行数据存储)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

lzhlizihang

你的鼓励是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值