clickhouse因索引创建失败导致查不到指定数据_ClickHouse集群实践经验从0到1

本文总结了作者在使用ClickHouse集群过程中的经验,包括数据类型的选取、分区和索引的设计、查询优化策略以及运维注意事项。强调了避免全String类型、使用DateTime、避免Nullable类型、合理分区和索引的重要性。此外,还提出了查询中应指定分区、避免全表扫描、优化JOIN操作以及使用物化视图等建议。
摘要由CSDN通过智能技术生成
作者:LittleMagic链接:https://www.jianshu.com/p/363d734bdc03来源:简书著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

前言

经过一个月的调研和快速试错,我们的ClickHouse集群已经正式投入生产环境,在此过程中总结出了部分有用的经验,现记录如下。看官可去粗取精,按照自己项目中的实际情况采纳之。(版本为19.16.14.65)

因为我们引入ClickHouse的时间并不算长,还有很多要探索的,因此不敢妄称“最佳实践”,还是叫做“更佳实践”比较好吧。

表相关事项

数据类型
  • 建表时能用数值型或日期时间型表示的字段,就不要用字符串——全String类型在以Hive为中心的数仓建设中常见,但CK环境不应受此影响。

  • 直接用DateTime表示时间列,而不是用整形的时间戳。因为CK中DateTime的底层就是时间戳,效率高,可读性好,且转换函数丰富。

  • 官方已经指出Nullable类型几乎总是会拖累性能,因为存储Nullable列时需要创建一个额外的文件来存储NULL的标记,并且Nullable列无法被索引。因此除非极特殊情况,应直接使用字段默认值表示空,或者自行指定一个在业务中无意义的值(例如用-1表示没有商品ID)。

分区和索引
  • 事实表必须分区,分区粒度根据业务特点决定,不宜过粗或过细。我们当前都是按天分区,按小时、周、月分区也比较常见(系统表中的query_log、trace_log表默认就是按月分区的)。

  • 必须指定索引列,在绝大多数查询的WHERE语句中都会用到的列适合作为索引。CK的索引非MySQL的B树索引,而是类似Kafka log风格的稀疏索

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值