这篇文章用来记录从今起(2018/7/1)开始,elasticsearch遇见的错误。
2018/7/1
以下三条记录源于5台机器导入近3亿条文档
1.集群压力大,某台机器失去“心跳”后,其他机器好像总找不回它,导致数据无法继续传输
查看日志,是说9300拒绝连接,想不明白,怎么会拒绝连接?很显然与防火墙无关,果然,关了防火墙依然有出现这种情况的可能。
【我感觉还是9300的写入压力太大?】
目前既没有找到好的解释,也没有好的解决办法
目前的解决办法是:
将bulk提交的request——timeout设置得很大,比如600秒,retries数也设置大一些,比如说100次。这样一来,集群不可用时,自己的代码程序不会退出。因为代码退出代价很大,你不知道什么时候集群失效了,数据传输到了哪些文件的哪些位置,重来又太耗时。
故让代码持续的去尝试请求,然后手动修复集群。
2.[WARN ][o.e.m.j.JvmGcMonitorService] [es-ip13] [gc][160] overhead, spent [97
这是个小坑,设置初始堆和最大堆的值后(我是12g),需要将下方的默认的1g注销掉,否