clickhouse 查询优化_clickhouse优化最佳实践(持续更新...)

最新推荐文章于 2024-07-01 17:02:26 发布

Gigiain

最新推荐文章于 2024-07-01 17:02:26 发布

阅读量3.6k

点赞数

文章标签： clickhouse 查询优化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35934012/article/details/113380215

版权

本文介绍了ClickHouse在易企秀数据仓库项目中的应用，强调了查询优化的重要性。包括表优化（数据类型、分区和索引、表参数），查询优化（单表查询、数据采样、避免全量查询、去重和排序优化），多表关联，以及写入和删除优化。建议使用预过滤（prewhere）、采样查询、物化视图和避免小表JOIN等技巧提升性能。

摘要由CSDN通过智能技术生成

clickhouse在易企秀数据仓库项目中已投入使用两年，主要为内部用户提供快速查询和多维分析的能力；希望你在业务当中遇到的性能问题，在这里都能得到解决

Clickhouse堪称OLAP领域的黑马，最近发布的几个版本在多表关联分析上也有了极大的性能提升，尤其是还引入了MaterializeMySQL Database Engine做到了实时对齐业务线mysql中的数据。

表优化

数据类型

建表时能用数值型或日期时间型表示的字段，就不要用字符串——全String类型在以Hive为中心的数仓建设中常见，但CK环境不应受此影响。

虽然clickhouse底层将DateTime存储为时间戳Long类型，但不建议直接存储Long类型，因为DateTime不需要经过函数转换处理，执行效率高、可读性好。

官方已经指出Nullable类型几乎总是会拖累性能，因为存储Nullable列时需要创建一个额外的文件来存储NULL的标记，并且Nullable列无法被索引。因此除非极特殊情况，应直接使用字段默认值表示空，或者自行指定一个在业务中无意义的值(例如用-1表示没有商品ID)。

分区和索引

分区粒度根据业务特点决定，不宜过粗或过细。一般选择按天分区，也可指定为tuple()；以单表1亿数据为例，分区大小控制在10-30个为最佳。

PARTITION BY tuple()

必须指定索引列，clickhouse中的索引列即排序列，通过order by指定，一般在查询条件中经常被用来充当筛选条件的属性被纳入进来；可以是单一维度，也可以是组合维度的索引；通常需要满足高基列在前、查询频率大的在前原则；还有基

最低0.47元/天解锁文章

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
clickhouse 查询优化_clickhouse优化最佳实践(持续更新...)

clickhouse在易企秀数据仓库项目中已投入使用两年，主要为内部用户提供快速查询和多维分析的能力；希望你在业务当中遇到的性能问题，在这里都能得到解决Clickhouse堪称OLAP领域的黑马，最近发布的几个版本在多表关联分析上也有了极大的性能提升，尤其是还引入了MaterializeMySQL Database Engine做到了实时对齐业务线mysql中的数据。表优化数据类型建表时能用数值型...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。