Clickhouse 踩坑之旅 ---- MergeTree不合并分区的问题_clickhouse mergetree 合并太慢-CSDN博客

本文链接：https://blog.csdn.net/java_ying/article/details/125662876

1 、背景

	> 目前使用 ck 作日志存储用 大概1/s 到 10000/s 数据量不等 我们本地测试没问题 但是部署到客户环境报错
	> 错误信息是在插入数据时 Too many parts(300)

2、解决思路及路线

准备

模拟客户的硬件软件环境取到日志样本

第一阶段

首先看到错误了肯定是按照对应错误去找解决方法第一反应既然这个值比较少那么就给他调大
果然数据可以继续录入了不过在尝试了 600、1200、9000后发现治标不治本

第二阶段

发生错误的时候进入ck 存放数据目录发现很多分区没有合并而且总是在卡到一定数量时就不动了
然后就会报错了解mergeTree的都知道 mergeTree 有个强制合并分区的命令但是执行了也没有用
再次思考是不是插入数据的时候 io 消耗过大导致没有额外IO去执行合并呢
是否考虑增加 buffer 引擎的表挡在 mergeTree 之前就能解决问题呢不过这个改动过于巨大还是要确定问题再决定是否这么改并且 buffer 引擎也有自己的缺点

第三阶段

观察：执行 iostat -d -x 1 命令观察io 发现服务器配置很高并不会吃满IO 但是还是会出现这个问题。

第四阶段

突然想起ck 有自己的异常日志再次模拟数据测试发现 ck 报错 code 76
这一看像linux 打开资源过多的问题啊但是此时并没有报错Too many parts(300)
过了一会 Too many parts(300) 再次出现
思考发生问题的原因应该是mergeTree 合并分区时发现打开文件数量过多无法进行合并然后分区累积导致Too many parts(300)

第五阶段

有问题就要找解决方法了
修改/etc/security/limits.conf 添加：
clickhouse soft nofile 262144
clickhouse hard nofile 262144
使用ulimit -n 查询、看到的是所有用户可打开的总数，而ck能打开的大小只是系统的默认值，所以不要被这个命令干扰，重启ck后、获取ck的进程、再通过cat /proc/${pid}/limits |grep open ，判断配置是否生效