一次关于ETCD客户端（ETCD4J）问题的定位

最新推荐文章于 2024-09-12 08:08:46 发布

置顶 hashcon

最新推荐文章于 2024-09-12 08:08:46 发布

阅读量8.2k

点赞数

分类专栏：分布式协同服务（zookeeper与ETCD）问题定位文章标签： java etcd4j etcd 问题定位

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhxdick/article/details/75331528

版权

问题定位同时被 2 个专栏收录

14 篇文章 0 订阅

订阅专栏

分布式协同服务（zookeeper与ETCD）

8 篇文章 1 订阅

订阅专栏

问题现象

ETCD作为我们管理面（基于Java）的异步任务同步媒介，在管理面压力测试时，发现任务状态不更新了。

问题定位流程

而业务线程日志正常（INFO级别），数据库没有死锁，并且top -c命令和sar命令等查看CPU，内存，硬盘IO都正常。
于是，利用jstack定时十秒打印线程方法调用栈，打印六次。
发现定时线程方法栈很奇怪：
这里写图片描述
发现这个线程池里面的所有线程都处于WAITING状态，并且调用栈一直在加深，和死循环似的，在EtcdResponsePromise.get()这个方法纠结(看上去是个异步get请求)。
将日志级别设为Debug级别，复现场景。

这里写图片描述

从日志中看出，这个通过 HTTP PUT到ETCD的请求一直失败，并且一直重试，查阅资料得知，我去，ETCD4J的默认配置是无限重试（参考资料： https://github.com/jurmous/etcd4j/issues/31）
那么，为何会PUT失败呢？

PUT会失败，推测三个原因：

ETCD挂了
这个路径在PUT过程中被删掉了
ETCD4J请求限制（ETCD4J基于Netty，Netty的Client默认有超时时间和请求大小限制），包括超时时间限制和大小限制

排除了1，2，我推测原因是3

查看ETCD4J官网：
https://github.com/jurmous/etcd4j#custom-parameters-on-etcdnettyclient
这里写图片描述
的确有限制（默认100K），再看我们的路径目前存储的数据大小推测我们的请求大小，嗯，的确快大于了100K

解决方案

调整ETCD4J配置，参考业界配置和我们的应用场景，配置超时时间为1S，大小为1MB，参考：https://coreos.com/etcd/docs/latest/dev-guide/limit.html
调整重试次数，不能无限重试，无限重试的结果就是一个错误导致线程池任务队列满了无法响应处理其他正常的状态业务，雪崩。而且这个重试最好不要立刻重试n次，而是以幂函数的时间间隔重试（1S后重试一次，2S后重试一次，4S后重试一次。。。），减轻组件错误带来的某一个压力尖峰时刻

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。