clickhouse常规的优化方法_clickhouse 优化

visits_v1 表:

PARTITION BY toYYYYMM(StartDate) 
ORDER BY (CounterID, StartDate, intHash32(UserID), VisitID) 

现场查询按月查询的情况比较多,可以按月进行分区

1.4 表参数

l Index_granularity 是用来控制索引粒度的,默认是8192,如非必须不建议调整。
l 如果表中不是必须保留全量历史数据,建议指定TTL(生存时间值),可以免去手动过期历史数据的麻烦,TTL 也可以通过alter table 语句随时修改。

二、写入查询优化

(1)尽量不要执行单条或小批量删除和插入操作,这样会产生小分区文件,给后台Merge 任务带来巨大压力
(2)不要一次写入太多分区,或数据写入太快,数据写入太快会导致Merge 速度跟不上而报错,一般建议每秒钟发起2-3 次写入操作,每次操作写入2w~5w 条数据(依服务器性能而定)

配置项主要在config.xml 或users.xml 中,基本上都在users.xml 里
➢ config.xml 的配置项
https://clickhouse.tech/docs/en/operations/server-configuration-parameters/settings/
➢ users.xml 的配置项
https://clickhouse.tech/docs/en/operations/settings/settings/

CPU 资源
在这里插入图片描述

内存资源
在这里插入图片描述

三、查询优化

3.1 单表查询
3.1.1 Prewhere 替代 where

Prewhere 和where 语句的作用相同,用来过滤数据。不同之处在于prewhere 只支持MergeTree 族系列引擎的表,首先会读取指定的列数据,来判断数据过滤,等待数据过滤之后再读取select 声明的列字段来补全其余属性。
当查询列明显多于筛选列时使用Prewhere 可十倍提升查询性能,Prewhere 会自动优化执行过滤阶段的数据读取方式,降低io 操作。
在某些场合下,prewhere 语句比where 语句处理的数据量更少性能更高。
默认情况,我们肯定不会关闭where 自动优化成prewhere,但是某些场景即使开启优化,也不会自动转换prewhere,需要手动指定prewhere:
⚫ 使用常量表达式
⚫ 使用默认值为alias 类型的字段
⚫ 包含了arrayJOIN,globalIn,globalNotIn 或者indexHint 的查询
⚫ select 查询的列字段和where 的谓词相同
⚫ 使用了主键字段

3.1.2 列裁剪与分区裁剪

数据量太大时应避免使用select * 操作,查询的性能会与查询的字段大小和数量成线性表换,字段越少,消耗的io 资源越少,性能就会越高。分区裁剪就是只读取需要的分区,在过滤条件中指定。

3.1.3 orderby 结合 where、limit

千万以上数据集进行order by 查询时需要搭配where 条件和limit 语句一起使用。

3.1.4 避免构建虚拟列

如非必须,不要在结果集上构建虚拟列,虚拟列非常消耗资源浪费性能,可以考虑在前端进行处理,或者在表中构造实际字段进行额外存储。

3.1.5 uniqCombined 替代 distinct

性能可提升10 倍以上,uniqCombined 底层采用类似HyperLogLog 算法实现,能接收2% 左右的数据误差,可直接使用这种去重方式提升查询性能。Count(distinct )会使用uniqExact 精确去重。
不建议在千万级不同数据上执行distinct 去重查询,改为近似去重uniqCombined。

3.2 多表关联
3.2.1 用 IN 代替JOIN

当多表联查时,查询的数据仅从其中一张表出时,可考虑用IN 操作而不是JOIN

3.2.2 大小表 JOIN

多表join 时要满足小表在右的原则。
右表关联时被加载到内存中与左表进行比较,ClickHouse 中无论是 Left join 、Right join 还是 Inner join 永远都是拿着右表中的每一条记录到左表中查找该记录是否存在,所以右表必须是小表。

3.2.3 谓词下推(版本差异)

ClickHouse 在join 查询时不会主动发起谓词下推的操作,需要每个子查询提前完成过滤操作,需要注意的是,是否执行谓词下推,对性能影响差别很大(新版本中已经不存在此问题,但是需要注意谓词的位置的不同依然有性能的差异)

3.2.4 分布式表使用 GLOBAL

两张分布式表上的IN 和JOIN 之前必须加上GLOBAL 关键字,右表只会在接收查询请求
的那个节点查询一次,并将其分发到其他节点上。
如果不加GLOBAL 关键字的话,每个节点都会单独发起一次对右表的查询,而右表又是分布式表,就导致右表一共会被查询N²次(N 是该分布式表的分片数量),这就是查询放大,会带来很大开销。

示例:
对分布式表使用join 或者 in时,ClickHouse会将当前SQL分发到各个ClickHouse节点上执行,例如有如下SQL:

select a.id,a.name,b.score from a join b on a.id = b.id

如果以上a表和b表都是分布式表,ClickHouse集群有3个节点,那么上面SQL会分发到ClickHouse所有节点执行,b表会在每个节点上收集其他节点对应b表数据并放在内存,这样的话,每个ClickHouse节点都会从对应的3台节点上将b表数据进行汇集。
如果使用global关键字,执行如下SQL:

select a.id,a.name,b.score from a global join b on a.id = b.id

这样执行SQL的话,相当于在当前写SQL节点会将查询得到b表所有数据,然后统一分发到其他ClickHouse各个节点上,然后每个节点在执行与a表关联。这样使用global就减少了集群之间查询次数。假设b表有N个分片分布在N个ClickHouse节点上,不使用global时,每个节点获取b表全量数据需要执行N的平方次查询,使用global时只需要执行N次查询即可。
所以在使用分布式表进行join或者in时,可以优先考虑使用global,使用用法如下:

select a.id,a.name,b.score from a global join b on a.id = b.id
select a.id,a.name from a global  where a.id global in (select id from b)

3.2.5 提前过滤

通过增加逻辑过滤可以减少数据扫描,达到提高执行速度及降低内存消耗的目的

3.2.6 使用with子句代替重复查询

https://blog.csdn.net/weixin_39025362/article/details/122559488

3.3 Explain 查看执行计划
3.3.1 基本语法

EXPLAIN [AST | SYNTAX | PLAN | PIPELINE] [setting = value, …]
SELECT … [FORMAT …]
PLAN:用于查看执行计划,默认值。
◼ header 打印计划中各个步骤的 head 说明,默认关闭,默认值 0;
◼ description 打印计划中各个步骤的描述,默认开启,默认值 1;
◼ actions 打印计划中各个步骤的详细信息,默认关闭,默认值 0。
AST :用于查看语法树;
SYNTAX:用于优化语法;
PIPELINE:用于查看 PIPELINE 计划。
◼ header 打印计划中各个步骤的 head 说明,默认关闭;
◼ graph 用 DOT 图形语言描述管道图,默认关闭,需要查看相关的图形需要配合graphviz 查看;
◼ actions 如果开启了 graph,紧凑打印打,默认开启。

3.3.2日志中的SQL查询计划查看

clickhouse-client -h --port --password --send_logs_level=trace <<< "

clickhouse TOO_MANY_UNEXPECTED_DATA_PARTS错误是指在ClickHouse数据库中出现了过多的意外数据分区。这种错误通常发生在进行数据插入或合并操作时,由于某些原因导致系统无法正确处理数据分区。解决这个问题的方法主要包括以下几步: 1. 首先,需要查看ClickHouse运行日志,以确定具体的错误信息和堆栈跟踪。错误信息可能会提供一些关于出现这个错误的原因的线索。 2. 检查系统的硬盘空间和可用内存情况。如果硬盘空间不足或可用内存不够,可能会导致数据分区失败。确保系统有足够的资源来处理数据分区操作。 3. 如果出现TOO_MANY_UNEXPECTED_DATA_PARTS错误,可以尝试使用ClickHouse提供的修复工具来解决问题。可以使用`CLEANUP`语句来清理无效的数据分区,或使用`OPTIMIZE`语句来优化表的物理结构。 4. 如果以上方法无法解决问题,可以考虑重新创建表并重新加载数据。备份数据后,可以尝试删除原来的表,并使用相同的表结构重新创建表。然后将备份的数据文件复制到新表的数据目录中。 5. 确保ClickHouse的配置文件中设置了合适的参数,如max_memory_usage_for_all_queries和max_partitions_per_insert等参数。这些参数可以控制ClickHouse的内存使用和数据分区情况,避免出现过多的意外数据分区。 综上所述,解决clickhouse TOO_MANY_UNEXPECTED_DATA_PARTS错误的方法包括查看运行日志、检查系统资源、使用修复工具、重新创建表并重新加载数据,以及配置合适的参数来控制内存使用和数据分区。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [ClickHouse 问题总结(持续更新)](https://blog.csdn.net/qq_40694671/article/details/122516999)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值