Apache Iceberg 中引入索引提升查询性能

字节跳动技术团队

于 2023-05-17 12:04:08 发布

阅读量5.3k

点赞数

文章标签： apache 大数据 hadoop spark hdfs

本文链接：https://blog.csdn.net/ByteDanceTech/article/details/130737930

版权

动手点关注

干货不迷路

‍

‍Apache Iceberg 是一种开源数据 Lakehouse 表格式，提供强大的功能和开放的生态系统，如：Time travel，ACID 事务，partition evolution，schema evolution 等功能。

本文将讨论火山引擎EMR团队针对 Iceberg 组件的优化思路，通过引入索引来提高查询性能。

采用 Iceberg 构建数据湖仓

火山引擎 E-MapReduce（简称 EMR）是火山引擎数智平台（VeDI）旗下的云原生开源大数据平台产品，提供了企业级的 Hadoop、Spark、Flink、Hive、Presto、Kafka、StarRocks、Doris、Hudi、Iceberg 等大数据生态组件，100% 开源兼容，可以帮助企业快速构建企业级大数据平台，降低运维门槛。秉承业界领先的 EMR Stateless 理念，火山引擎 EMR 可以实现集群级别的弹性伸缩，即无业务需求时释放集群，有业务需求时再拉起集群，配合智能化的冷热数据分层存储能力，助力企业在大数据基建领域进一步降本提效。

基于火山引擎 EMR 产品，可以构建数据湖仓、近实时数仓、实时数仓等场景。例如，使用 Iceberg 构建数据湖仓，从 ODS 到 DWD 等不同的分层进行建模，将数据 HFDS 或 TOS（火山引擎对象存储产品）上，然后采用 Trino 或者 Spark 去做分析。‍

‍