【大数据入门核心技术-Iceberg】（五）Iceberg与Spark基本Shell操作

forest_long

已于 2023-10-17 19:49:00 修改

阅读量184

点赞数

分类专栏：大数据技术入门到21天通关文章标签：大数据 spark 分布式 icebrg hudi 数据湖

于 2023-10-17 18:03:12 首次发布

本文链接：https://blog.csdn.net/forest_long/article/details/133889758

版权

大数据技术入门到21天通关专栏收录该内容

162 篇文章 8 订阅 ¥49.90 ¥99.00

订阅专栏

超级会员免费看

本文详细介绍了如何使用SQL操作Apache Iceberg表，包括创建（分区）表、删除表、修改表属性、插入和查询数据、使用存储过程。同时，文章还讨论了在Spark Shell中遇到的错误'Could not find or load main class org.apache.spark.deploy.yarn.ExecutorLauncher'的解决方案。

摘要由CSDN通过智能技术生成

一、SQL操作

1、创建表

use hadoop_prod;
create database default;
use default;

CREATE TABLE hadoop_prod.default.sample1 (
    id bigint COMMENT 'unique id',
    data string)
USING iceberg;

>PARTITIONED BY (partition-expressions) ：配置分区
>LOCATION '(fully-qualified-uri)' ：指定表路径
>COMMENT 'table documentation' ：配置表备注
>TBLPROPERTIES ('key'='value', ...) ：配置表属性
表属性：https://iceberg.apache.org/docs/latest/configuration/
对Iceberg表的每次更改都会生成一个新的元数据文件（json文件）以提供原子性。默认情况下，旧元数据文件作为历史文件保存不会删除。

如果要自动清除元数据文件，在表属性中设置write.metadata.delete-after-commit.enabled=true。这将保留一些元数据文件（直到write.metadata.previous-versions-max），并在每个新创建的元数据文件之后删除旧的元数据文件。

2、创建分区表

（1）分区表

CREATE TABLE hadoop_prod.default.sample2 (
    id bigint

了解本专栏

超级会员免费看

forest_long

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【大数据入门核心技术-Iceberg】（五）Iceberg与Spark基本Shell操作

这将保留一些元数据文件（直到write.metadata.previous-versions-max），并在每个新创建的元数据文件之后删除旧的元数据文件。Spark中支持两种Catalog的设置：hive和hadoop，Hive Catalog就是Iceberg表存储使用Hive默认的数据路径，Hadoop Catalog需要指定Iceberg格式表存储路径。例如，如果按天划分分区，而改为按小时划分分区，那么覆盖将覆盖每小时划分的分区，而不再覆盖按天划分的分区。-- 在数组中的结构中添加一个字段。
复制链接

扫一扫