Apache Iceberg源码分析：数据写入流程

最新推荐文章于 2024-06-28 18:04:33 发布

孤寂的夜总有繁星点点

最新推荐文章于 2024-06-28 18:04:33 发布

阅读量2.6k

点赞数 3

分类专栏： Apache Iceberg 文章标签： hadoop 大数据 spark

本文链接：https://blog.csdn.net/u012794915/article/details/111831471

版权

本文详细解析了通过Spark 2.4.7批量写入Apache Iceberg的过程，包括Executor的数据写入逻辑和Driver的提交逻辑。在Executor阶段，数据根据FileFormat写入，通过分区目录结构存储，而Driver端负责生成元数据，包括计算新增、删除文件，并进行manifest的合并和更新。整个流程确保了高效查询和数据一致性。

摘要由CSDN通过智能技术生成

在上一篇文章中我们主要讲解了iceberg各个元数据文件中的数据组织形式，那么这些元数据是怎么生成的呢？如何通过spark写入iceberg？本文将带大家简单了解一下使用spark 2.4.7 batch写入iceberg的整体流程。

spark写入示例

本文主要演示如何使用iceberg hadoopTable写入数据，hadoopCatalog和hiveCatalog在使用上大同小异。

import org.apache.iceberg.hadoop.HadoopTables
import org.apache.hadoop.conf.Configuration
import org.apache.iceberg.catalog.TableIdentifier
import org.apache.iceberg.Schema
import org.apache.iceberg.types._
import org.apache.spark.sql.types._
import org.apache.iceberg.PartitionSpec
import org.apache.iceberg.spark.SparkSchemaUtil
import org.apache.spark.sql._
import spark.implicits._

val order_item_schema = StructType(List(
      StructField("id", LongType, true),
      StructField("order_id", LongType, true),
      StructField("product_id", LongType, true),
      StructField("product_price", DecimalType(7,2), true),
      StructField("pro

最低0.47元/天解锁文章

孤寂的夜总有繁星点点

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
Apache Iceberg源码分析：数据写入流程

在上一篇文章中我们主要讲解了iceberg各个元数据文件中的数据组织形式，那么这些元数据是怎么生成的呢？如何通过spark写入iceberg？本文将带大家简单了解一下使用spark 2.4.7 batch写入iceberg的整体流程。spark写入示例本文主要演示如何使用iceberg hadoopTable写入数据，hadoopCatalog和hiveCatalog在使用上大同小异。import org.apache.iceberg.hadoop.HadoopTablesimport or
复制链接

扫一扫

专栏目录