clickHouse高性能入库建议

大师兄师傅

于 2024-02-21 11:11:43 发布

阅读量494

点赞数 11

分类专栏： clickHouse 文章标签： clickhouse 数据库大数据

本文链接：https://blog.csdn.net/qq_23827347/article/details/136205605

版权

clickHouse 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

1、写本地表（推荐使用spark），查询分布式表，提升写入和查询性能，保证写入和查询的数据一致性。

2、外部模块保证数据导入的幂等性。

建议创建入数任务应该按照对应分区去创建，ClickHouse不支持数据写入的事务保证。通过外部导入数据模块控制数据的幂等性，比如某个批次的数据导入异常，则drop对应的分区数据或清理掉导入的数据后，重新导入该分区或批次数据。

3、大批量少频次的写入。

ClickHouse的每次数据插入，都会生成一到多个part文件，如果data part过多, merge压力会变大，甚至出现各种异常影响数据插入。建议一次插入10到百万行，写入字段不能太多，太多字段情况下要减少写入行数，以降低对写入节点的内存和CPU压力，每秒不超过1次插入。

4、多副本并行导入。

有大数据的导出场景，建议将数据提前拆分成多份，（拆分其实很简单，文件结尾可以按0至9取模，然后按照对应的文件为每个任务的入库源数据）在一个shard内的多个副本同时导入（也就是说每个分区内多并发的进行clickHouse多个shard同时入库），以分摊一个节点导入数据的压力，同时能提升数据入库的性能，缩短入库时间。常见错误：Too many parts(304). Merges are processingsignificantly slower than inserts。原因分析：MergeTree的merge的速度跟不上目录生成的速度,数据目录越来越多就会抛出这个异常。

建议：

1、一次只插入一个分区内的数据，如果数据属于不同的分区，则每次插入，不同分区的数据会独立生成part文件，导致part总数量膨胀，建议一批插入的数据属于同一个分区。

2、写入速率单节点写入速度为50~200MB/S，如果写入的数据每行为1Kb，那么写入的速度为 50，000到200，000行每秒，如果行数据容量更小，那么写入速度将更高，如果写入性能不够，可以使用多个副本同时写入，同一时间每个副本写入的数据保持均衡。

3、慎用分布式表批量插入

4、大批量数据导入要分时、分节点、扩容