Clickhouse Projection 特性探索

最新推荐文章于 2023-09-26 18:06:32 发布

VIP文章 GrowingIO_

最新推荐文章于 2023-09-26 18:06:32 发布

阅读量680

点赞数 1

分类专栏： GrowingIO技术专栏文章标签：数据库大数据 olap clickhouse

本文链接：https://blog.csdn.net/growingio_/article/details/118578118

版权

年初的clickhouse meetup上快手团队分享了clickhouse projection在其公司内部的实践。分享包括了projection原理、使用、性能测试等内容。从性能测试的数据上看，projeciton对查询性能有着百倍级别的提升，意味着之前分钟级的查询响应延迟，将会提升到秒级响应。秒级的查询响应延迟，将会提升到毫秒级的响应，对于使用者将会有更加完美的体验。

看完了快手同学的clickhouse projeciton的分享，在我脑中也产生了几个问题？

没有projection功能之前，clickhouse还存在什么问题?
clickhouse projection如何解决的问题？
clickhouse projection适用于哪些场景？
clickhouse proejction有什么要注意的吗？

没有projection功能之前，clickhouse还存在什么问题?

clickhosue作为一款olap引擎，处于数据平台中的最顶层，直接对接平台用户。查询性能的好坏，直接决定着用户的使用体验。

clickhouse的查询性能虽然已经非常完美，但是面对超大数据量的场景还是会存在一定的问题，原因是clickhouse是基于内存计算的MPP架构分析型数据库，与Spark, Hive, MR等计算框架不同，计算过程中的临时数据没有磁盘选项。查询过程中，数据会加载到内存中。如果内存配置不够，将会导致查询失败，对clickhouse集群的稳定也会有一定的影响。
用户在数据查询的场景中，会有着一定的使用习惯。比如，每天定时都会查看一些特定的图表。这些图表中包含全量的数据统计，复杂的数据查询逻辑等。这些查询相较于其他查询，可以归属于异常查询。这些查询可能因为内存问题导致查询失败，也可能因为复杂的计算逻辑导致查询时间过长，影响平台上其他用户的查询。

clickhouse projection如何解决的问题?

在OLAP领域中，根据数据模型主要分为ROLAP(Relational OLAP) 关系OLAP，MOLAP(Multidimension OLAP) 多维OLAP 两种。ROLAP将数据表达为二维关系模型，类似关系型数据库模型，数据表达能力较好，对外提供SQL接口。MOLAP将OLAP分析所用到的多维数据物理上存储为多维数组的形式，形成“立方体”的结构。维的属性值被映射成多维数组的下标值或下标的范围，而汇总数据作为多维数组的值存储在数组的单元中，采用预聚合的思想，加速数据查询，但是数据模型不够灵活。

clickhouse作为ROLAP典型代表之一，纯列式存储单表查询性能几乎没有对手。projection 名字起源于vertica，相当于传统意义上的物化视图。它借鉴 MOLAP 预聚合的思想，在数据写入的时候，根据 projection 定义的表达式，计算写入数据的聚合数据同原始数据一并写入。数据查询的过程中，如果查询SQL通过分析可以通过聚合数据得出，直接查询聚合数据减少计算的开销，解决了由于数据量导致的内存问题。

projeciton 底层存储上属于part目录下数据的扩充，可以理解为查询索引的一种形式。

从数据写入逻辑的核心代码上看（clickhouse version 21.7)，多个projection在part目录下以多个子目录存储，projection目录下存储基于原始数据聚合的数据。所以，proje

最低0.47元/天解锁文章

GrowingIO_

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Clickhouse Projection 特性探索

年初的clickhouse meetup上快手团队分享了clickhouse projection在其公司内部的实践。分享包括了projection原理、使用、性能测试等内容。从性能测试的数据上看，projeciton对查询性能有着百倍级别的提升，意味着之前分钟级的查询响应延迟，将会提升到秒级响应。秒级的查询响应延迟，将会提升到毫秒级的响应，对于使用者将会有更加完美的体验。看完了快手同学的clickhouse projeciton的分享，在我脑中也产生了几个问题？没有projection功能之前
复制链接

扫一扫