parquet增量支持增删改方案

最新推荐文章于 2024-05-23 17:13:02 发布

anddyhua

最新推荐文章于 2024-05-23 17:13:02 发布

阅读量1.3k

点赞数

分类专栏： Note for Bigdata

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/anddyhua/article/details/116114655

版权

面对Parquet只读的局限，Delta Lake和Apache Hudi提供了支持增删改的解决方案。Delta Lake依赖Spark，提供版本控制，但小文件多，适合分区管理。Apache Hudi则支持Spark和Flink，允许多种表类型，但仍在持续更新中。

摘要由CSDN通过智能技术生成

痛点：
parquet文件在离线数仓能提升几十倍的读性能，但是只支持只读，一般做法是定时任务全量刷新。同时离线需求复杂，依赖表多且数据量都很大，时间窗口T+1，要在窗口期内把所有依赖表每次都全量刷不太现实

网上找了下目前支持相关技术，并且做了简单的整理，不排除各技术已经做了增强，不限于如下表格：
在这里插入图片描述

一、Delta Lake
Delta Lake是在2019 spark conf由来自databricks的工程师 Michael Armbrust (sparkSQL创始人之一）分享的，大概看了下感觉其他都次要的，主要还是支持增删改：
参考blog和PPT：
Near Real Time Data Warehousing with Apache Spark and Delta Lake
Delta Lake: Open Source Reliability and Quality for Data Lakes

原理：
数据湖Delta Lake 深入解析：更新操作原理

这个原理跟hive支持事务原理差不多，所以有些技术也有选择h

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
parquet增量支持增删改方案

痛点：parquet文件在离线数仓能提升几十倍的读性能，但是只支持只读，一般做法是定时任务全量刷新。同时离线需求复杂，依赖表多且数据量都很大，时间窗口T+1，要在窗口期内把所有依赖表每次都全量刷不太现实delta lake是在2019 spark conf上，databricks开源的产品，大概看了下感觉其他都次要的，主要还是支持增删改：https://blog.csdn.net/wypblog/article/details/102889946https://blog.csdn.net/dafei
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。