浅淡 Apache Kylin 与 ClickHouse 的对比

最新推荐文章于 2023-11-14 18:22:16 发布

Linux云原生运维

最新推荐文章于 2023-11-14 18:22:16 发布

阅读量807

点赞数 2

本文链接：https://blog.csdn.net/weixin_43507410/article/details/112463344

版权

本文对比了Apache Kylin和ClickHouse两种大数据OLAP引擎。Kylin基于Hadoop的MOLAP技术，适合固定模式的聚合查询，如Dashboard和报表，而ClickHouse是MPP架构的ROLAP引擎，适用于灵活查询和明细查询。两者在技术原理、存储结构、优化方法和应用场景上各有特点，企业应根据具体需求选择。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Apache Kylin 和 ClickHouse 都是目前市场流行的大数据 OLAP 引擎；Kylin 最初由 eBay 中国研发中心开发，2014 年开源并贡献给 Apache 软件基金会，凭借着亚秒级查询的能力和超高的并发查询能力，被许多大厂所采用，包括美团，滴滴，携程，贝壳找房，腾讯，58 同城等；

OLAP 领域这两年炙手可热的 ClickHouse，由俄罗斯搜索巨头 Yandex 开发，于 2016 年开源，典型用户包括字节跳动、新浪、腾讯等知名企业。

这两种 OLAP 引擎有什么差异，各自有什么优势，如何选择？ 本文将尝试从技术原理、存储结构、优化方法和优势场景等方面，对比这两种 OLAP 引擎，为大家的技术选型提供一些参考。

01 技术原理

技术原理方面，我们主要从架构和生态两方面做个比较。

1.1 技术架构

Kylin 是基于 Hadoop 的 MOLAP (Multi-dimensional OLAP) 技术，核心技术是 OLAP Cube ； 与传统 MOLAP 技术不同，Kylin 运行在 Hadoop 这个功能强大、扩展性强的平台上，从而可以支持海量 (TB 到 PB) 的数据；它将预计算（通过 MapReduce 或 Spark 执行）好的多维 Cube 导入到 HBase 这个低延迟的分布式数据库中，从而可以实现亚秒级的查询响应；最近的 Kylin 4 开始使用 Spark + Parquet 来替换 HBase，从而进一步简化架构。由于大量的聚合计算在离线任务（Cube 构建）过程中已经完成，所以执行 SQL 查询时，它不需要再访问原始数据，而是直接利用索引结合聚合结果再二次计算，性能比访问原始数据高百倍甚至千倍；由于 CPU 使用率低，它可以支持较高的并发量，尤其适合自助分析、固定报表等多用户、交互式分析的场景。

ClickHouse 是基于 MPP 架构的分布式 ROLAP （Relational OLAP）分析引擎， 各节点职责对等，各自负责一部分数据的处理（shared nothing），开发了向量化执行引擎，利用日志合并树、稀疏索引与 CPU 的 SIMD（单指令多数据，Single Instruction Multiple Data）等特性，充分发挥硬件优势，达到高效计算的目的。因此当 ClickHouse 面对大数据量计算的场景，通常能达到 CPU 性能的极限。

1.2 技术生态

Kylin 采用 Java 编写，充分融入 Hadoop 生态系统，使用 HDFS 做分布式存储，计算引擎可选 MapReduce、Spark、Flink；存储引擎可选 HBase、Parquet（结合 Spark)。源数据接入支持 Hive、Kafka、RDBMS 等，多节点协调依赖 Zookeeper；兼容 Hive 元数据，Kylin 只支持 SELECT 查询，schema 的修改等都需要在 Hive 中完成，然后同步到 Kylin；建模等操作通过 Web UI 完成，任务调度通过 Rest API 进行，Web UI 上可以查看任务进度。

ClickHouse 采用 C++ 编写，自成一套体系，对第三方工具依赖少。支持较完整的 DDL 和 DML，大部分操作可以通过命令行结合 SQL 就