Apache Iceberg
文章平均质量分 92
孤寂的夜总有繁星点点
这个作者很懒,什么都没留下…
展开
-
Apache Iceberg源码分析:数据写入流程
在上一篇文章中我们主要讲解了iceberg各个元数据文件中的数据组织形式,那么这些元数据是怎么生成的呢?如何通过spark写入iceberg?本文将带大家简单了解一下使用spark 2.4.7 batch写入iceberg的整体流程。 spark写入示例 本文主要演示如何使用iceberg hadoopTable写入数据,hadoopCatalog和hiveCatalog在使用上大同小异。 import org.apache.iceberg.hadoop.HadoopTables import or原创 2020-12-29 17:43:30 · 2754 阅读 · 1 评论 -
Apache Iceberg源码分析:数据存储格式
Apache Iceberg作为一款新兴的数据湖解决方案在实现上高度抽象,在存储上能够对接当前主流的HDFS,S3文件系统并且支持多种文件存储格式,例如Parquet、ORC、AVRO。相较于Hudi、Delta与Spark的强耦合,Iceberg可以与多种计算引擎对接,目前社区已经支持Spark读写Iceberg、Impala/Hive查询Iceberg。本文基于Apache Iceberg 0.10.0,介绍Iceberg文件的组织方式以及不同文件的存储格式。 Iceberg Table Form原创 2020-12-25 16:13:36 · 3032 阅读 · 3 评论