写入多个表_Apache Iceberg：跟踪超大规模表的新格式

最新推荐文章于 2024-05-17 14:01:17 发布

倾城落雪

最新推荐文章于 2024-05-17 14:01:17 发布

阅读量157

点赞数

文章标签：写入多个表

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36377785/article/details/112620659

版权

点击“蓝字”关注我们吧

Apache Iceberg 是一种新的表格格式，用于存储和分析大型的、移动缓慢的表格数据。它的工作方式类似于 SQL 表，它旨在改进内置在 Hive、Presto 和 Spark 中的事实上的标准表布局。

对于使用者来说：

模式演化(Schema evolution)支持添加、删除、更新或重命名，并且没有副作用
隐藏分区(Hidden partitioning)可以防止导致错误提示或非常慢查询的用户错误
分区布局演变(Partition layout evolution)可以随着数据量或查询模式的变化而更新表的布局
时光穿梭(Time travel)可使用完全相同的表快照实现重新查询，或者使用户轻松检查更改
版本回滚使用户可以通过将表重置为良好状态来快速纠正问题

可靠性与性能方面，Iceberg 可用于生产中，它的一个表可以包含数十 PB 的数据，即使没有分布式 SQL 引擎也可以读取这些巨大规模的表。

扫描速度很快，无需使用分布式 SQL 引擎即可读取表或查找文件
高级过滤，使用表元数据对数据文件以分区和列级统计信息进行修剪

Iceberg 旨在解决最终一致的云对象存储中的正确性问题：

可与任何云存储一起使用，并且通过避免列出(list)和重命名，可以在 HDFS 中减少 NN 拥塞
可序列化的隔离，表更改是原子性的，对外永远不会有部分更改或未提交的更改
多个并发写入器使用乐观并发，即使写入冲突，也将重试以确保兼容更新成功

往期推荐

龙芯 .NET正式发布，相关代码已开源

2020-12-23

Spring Cloud 2020.0.0 正式发布，移除大量模块

2020-12-23

EVM：超轻量级物联网虚拟机

2020-12-22

扫码关注最新动态

公众号ID:fosslab

我就知道你“在看”

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
写入多个表_Apache Iceberg：跟踪超大规模表的新格式

点击“蓝字”关注我们吧Apache Iceberg 是一种新的表格格式，用于存储和分析大型的、移动缓慢的表格数据。它的工作方式类似于 SQL 表，它旨在改进内置在 Hive、Presto 和 Spark 中的事实上的标准表布局。对于使用者来说：模式演化(Schema evolution)支持添加、删除、更新或重命名，并且没有副作用隐藏分区(Hidden partitioning)可以防止...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。