Apache Iceberg 使用教程

经薇皎

于 2024-08-31 08:50:45 发布

阅读量1.1k

点赞数 7

本文链接：https://blog.csdn.net/gitblog_00437/article/details/141740971

版权

Apache Iceberg 使用教程

icebergA compositional diagramming and animation library as an eDSL in Python项目地址:https://gitcode.com/gh_mirrors/ic/iceberg

项目介绍

Apache Iceberg 是一个高性能的开放表格式，专为分析型数据集设计。它为大数据带来了 SQL 表的可靠性和简单性，同时使得 Spark、Trino、Flink、Presto、Hive 和 Impala 等引擎能够安全地同时处理相同的表。Iceberg 支持灵活的 SQL 命令来合并新数据、更新现有行和执行有针对性的删除。

项目快速启动

环境准备

确保你已经安装了以下软件：

Java 8 或更高版本
Git
Docker（可选，用于测试环境）

克隆项目

git clone https://github.com/apache/iceberg.git
cd iceberg

构建项目

./gradlew build

快速启动示例

以下是一个简单的 Spark 示例，展示如何使用 Iceberg 表：

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder()
  .appName("Iceberg Example")
  .config("spark.sql.extensions", "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions")
  .config("spark.sql.catalog.local", "org.apache.iceberg.spark.SparkCatalog")
  .config("spark.sql.catalog.local.type", "hadoop")
  .config("spark.sql.catalog.local.warehouse", "file:///tmp/warehouse")
  .getOrCreate()

// 创建一个 Iceberg 表
spark.sql("CREATE TABLE local.db.sample (id bigint, data string) USING iceberg")

// 插入数据
spark.sql("INSERT INTO local.db.sample VALUES (1, 'a'), (2, 'b')")

// 查询数据
spark.sql("SELECT * FROM local.db.sample").show()