5、断路器 Netflix Hystrix 之运维操作

最新推荐文章于 2024-04-20 10:00:00 发布

carl-zhao

最新推荐文章于 2024-04-20 10:00:00 发布

阅读量217

点赞数

分类专栏： Circuit Breaker Hystrix Distributed

本文链接：https://blog.csdn.net/u012410733/article/details/112915338

版权

Distributed 同时被 3 个专栏收录

40 篇文章 1 订阅

订阅专栏

Circuit Breaker

14 篇文章 1 订阅

订阅专栏

Hystrix

8 篇文章 1 订阅

订阅专栏

Hystrix 不仅是一种弹性工程工具，也是一种操作工具。

本页面试图分享每天使用 100 多个 Hystrix 命令类型、40 多个线程池、100 多个线程隔离命令和 2000 多个信号量隔离命令执行的系统的一些经验。

本页上描述的截图和事件来自 Netflix API 系统，代表了真实的生产问题或对生产的 Latency Monkey 模拟。

1、如何配置和调优调用

部署新电路的典型方法是使用自由配置(超时/线程/信号量)将其发布到生产环境中，然后在看到它在峰值生产周期中运行后将其调优为更严格的配置。

在实践中，这通常看起来是:

保留默认的 1000ms 超时，除非知道需要更多的时间。
保持线程池默认为 10 个线程，除非知道需要更多线程。
金丝雀部署;如果一切顺利，请继续。
整个系统 24 小时投入生产。
依赖标准的警报和监视来捕捉问题(如果有的话)。
24 小时后，使用延迟百分比和通信量来计算对电路有意义的最低配置值。
在生产中实时更改这些值，并使用实时仪表板监视它们，直到您有信心为止。
只有当电路的行为或性能特征发生变化，并通过警报和/或仪表板监控引起您的注意时，才可以再次查看该电路的配置。

下图展示了如何选择线程池、队列和执行超时(或信号量大小)的典型思维过程:

在这里插入图片描述
对于大多数电路，您应该尝试将它们的超时值设置为正常运行系统的 99.5%，这样它们就可以切断坏请求，不让它们占用系统资源或影响用户行为。

您必须调整线程池和队列的大小，使它们只占整个应用程序资源的一小部分，否则它们将无法防止依赖关系使可用资源饱和。

关于配置和调优电路的重要事情是:

您应该在生产环境中根据真实的流量模式进行调优
您可以轻松地实时调整设置，同时监视以查看不同设置的影响

2、预料到抖动和失败

Hystrix 以毫秒的粒度度量和报告度量。这揭示了“抖动”——可以看作是超时、线程池拒绝、慢下来以及其他类似的事情的爆发。在一个大的集群中，对于一个大容量的电路来说，在任何特定的时间通常都有一些这样的事情发生。

Hystrix 所捕获的度量粒度是许多软件系统所不具备的，因此这些报告可能会引起不必要的担忧。

在这张来自 Netflix API 仪表板的截图中，你可以看到橙色和紫色的数字，显示在一个 10 秒的统计窗口中，代表 243 个服务器的一小部分请求发生超时和线程池拒绝。

在这里插入图片描述
大多数系统都是在相当高的级别上进行度量的——即使分解成百分位数延迟，也是每分钟完成一次。而且，通常是针对整个应用程序请求循环，而不是与之交互的每个依赖项。在《海斯特里克斯》中，你可以更清楚地看到发生了什么。使用放大镜显示每个依赖项的情况之后，如果您看到以前可能看不到的抖动，请不要感到惊讶。

一些原因:

客户端机器垃圾收集(您的机器在请求的中间进行垃圾收集)
服务机器垃圾收集(远程服务器在向它发出请求时执行垃圾收集)
网络问题
不同的请求参数有不同的负载大小
缓存错过
丛发性调用模式
新机器启动(部署、自动扩展事件)和“热身”

3、潜在的问题

如果你注意到了延迟，不要急于重新配置。如果 Hystrix 命令正在减轻负载，那么它就在做它应该做的事情(当然，假设您在它正常运行时对它进行了正确的配置——参见上文)。

在早期在 Netflix Hystrix 被采用,这是一个常见的反应时电路(我们内部称之为 Hystrix[Observable]Command/CircuitBreake 配对)成为潜在的动态更改属性增加线程池,队列、超时等等,试着给它一些喘息的空间,让它再次工作。但这与你应该做的相反。如果您正确地为运行良好的系统配置了命令，并且该命令现在正在拒绝、超时和/或短路，那么您应该集中精力解决根本原因。

不要犯这样的错误，即在响应时给命令提供更多的资源以满足它的需要(极端情况下，如果您这样做，您自己就可以通过增加线程池、队列、超时、信号量等大小来进行DDOS攻击)。

例如，假设您有一个由100个服务器组成的集群，每个服务器允许有10个并发连接到一个服务，即:1000个可能的并发连接。在健康的情况下，它通常在任何给定时间使用200-300个。如果出现延迟并备份它们，那么您现在将使用1000个连接。每箱10个对于客户来说似乎不多，所以让我们尝试增加到20个，对吗?很可能10个是饱和的，20个也会变成饱和的。现在有2000个连接对后端开放，这使情况变得更糟。

这就是断路器存在的原因之一——释放底层系统的压力，让它们恢复，而不是在重试循环中使用更多的请求，挂起连接，等等。

例如，下面是一个具有延迟的单个依赖项的例子，它导致的超时高到足以导致断路器在大约三分之一的集群上跳闸。这是系统中唯一存在健康问题的电路，而Hystrix正在阻止它在出现延迟问题时获取其他资源。

在这里插入图片描述
简而言之，让系统摆脱负载、短路、超时和拒绝，直到底层系统恢复健康，并在Hystrix层恢复健康。Hystrix正是为这种场景而设计的，其重点是减少潜在系统的资源利用，通过隔离大多数资源并远离那些挂起在潜在连接上的资源，从而快速恢复。