一、问题现象 线上ES集群批量更新索引出现内存溢出,jvm一直full GC,old区内存爆满。ES服务无法使用
二、相关操作 4台ES机器,进行一次3000万数据的导入,导入数据成功,但是随后old区内存突然升高到100%
三、问题原因 dump内存之后进行分析,内存中大量发现索引数据,搜索根节点发现主要是concurrentMergeScheduler通道产生的,怀疑是merge操作引起的内存溢出。 之后定位到一个参数index.merge.scheduler.max_thread_count ,作用是配置merge并发线程数量,由于线上ES使用的是机械硬盘,怀疑默认配置线程数量会造成写入失败,从而导致内存溢出,所以调整参数到 index.merge.scheduler.max_thread_count:1 重启之后再导入3000万数据,监控发现merge速度变慢,但是没有出现内存溢出情况。