Data Lake
文章平均质量分 69
数据湖
lucklilili
这个作者很懒,什么都没留下…
展开
-
Apache Hudi Spark Guide
使用Spark数据源,我们将浏览代码片段,这些代码片段允许您插入和更新默认表类型的Hudi表:Copy on Write。在每次写入操作之后,我们还将演示如何以快照和增量方式读取数据。原创 2022-12-18 12:45:34 · 359 阅读 · 0 评论 -
Apache Hudi Table & Query Types
Hudi表类型定义了如何在DFS上对数据进行索引和布局,以及如何在这样的组织之上实现上述原语和时间线活动(即如何写入数据)。反过来,查询类型定义了底层数据如何向查询公开(即如何读取数据)。原创 2022-12-18 12:05:22 · 455 阅读 · 0 评论 -
Apache Hudi File Layouts
Hudi将数据表组织到分布式文件系统的基本路径下的目录结构中。原创 2022-12-18 11:34:40 · 114 阅读 · 0 评论 -
Apache Hudi Timeline
Hudi维护了在不同时刻在表上执行的所有操作的时间线,这有助于提供表的即时视图,同时也有效地支持按到达顺序检索数据。原创 2022-12-18 11:26:11 · 435 阅读 · 0 评论 -
Apache Hudi 数据湖介绍
Hudi是一个丰富的平台,可以通过增量数据管道构建流式数据湖在自我管理的数据库层上,同时针对湖引擎和常规批处理进行优化。原创 2022-12-18 11:10:47 · 596 阅读 · 0 评论 -
Delta Lake DeltaTable
Spark Scala ShellDownload the compatible version of Apache Spark by following instructions from Downloading Spark, either using pip or by downloading and extracting the archive and running spark-shell in the extracted directory.spark-shell --packages原创 2022-03-05 14:24:43 · 1726 阅读 · 0 评论 -
Delta Lake 基础操作篇
我们在使用写 Delta 数据是非常简单的,这也是 Delte Lake 介绍的 100% 兼容 Spark。Delta Lake 写数据是其最基本的功能,而且其使用和现有的 Spark 写 Parquet 文件基本一致,只不过换做成format("delta")。在介绍 Delta Lake 实现原理之前先来看看如何使用它,使用如下:我的Spark版本是:3.1.1如果需要使用Delta,我们在启动spark-shell 新增 --packages参数即可./spark-shell -原创 2022-02-16 21:38:43 · 1693 阅读 · 0 评论 -
数据湖 Delta Lake
What is Delta Lake?Delta Lake is an open format storage layer that delivers reliability, security and performance on your data lake — for both streaming and batch operations. By replacing data silos with a single home for structured, semi-structured and.翻译 2021-08-05 18:29:39 · 515 阅读 · 1 评论