SpringCloud笔记——Hystrix断路器

最新推荐文章于 2023-03-21 16:02:34 发布

大恐龙的小弟

最新推荐文章于 2023-03-21 16:02:34 发布

阅读量242

点赞数

分类专栏： SpringCloud 文章标签： spring cloud 微服务 Hystrix spring boot 后端

本文链接：https://blog.csdn.net/qq_43240702/article/details/109418212

版权

SpringCloud 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

概述

分布式系统面临的问题

复杂的分布式体系结构中应用程序有数十个依赖关系，每个依赖关系在某些时候将不可避免地失败

在这里插入图片描述

服务雪崩

多个微服务之间调用的时候，假设微服务A调用微服务B和微服务C，微服务B和微服务C又调用其它的微服务，这就是所谓的扇出，如果扇出的链路上某个微服务的调用响应时间过长或者不可用，对微服务A的调用就会占用越来越多的系统资源，进而引起系统崩溃，所谓的雪崩效应

对于高流量的应用来说，单一的后端依赖可能会导致所有服务器上的所有资源都在几秒钟内饱和。比失败更糟糕的是，这些应用程序还可能导致服务之间的延迟增加，备份队列，线程和其它系统资源紧张，导致整个系统发生更多的级联故障。这些都表示需要对故障和延迟进行隔离和管理，以便单个依赖关系的失败不能取消整个应用程序或系统

所以，通常当你发现一个模块下的某个实例失败以后，这时候这个模块依然还会接受流量，然后这个有问题的模块还调用了其他的模块，这样就会发生级联故障，或者叫雪崩

Hystrix是什么

Hystrix是一个用户处理分布式系统的延迟和容错的开源库，在分布式系统里，许多依赖不可避免地会调用失败，比如超时、异常等。Hystrix能够保证在一个依赖出问题的情况下，不会导致整体的服务失败，避免级联故障，提高分布式系统的弹性

“断路器”本身是一种开关装置，当某个服务单元发生故障之后，通过断路器的故障监控（类似熔断保险丝），向调用方返回一个符合预期的可处理的备选响应（FallBack），而不是长期等待或者抛出调用方无法处理的异常，这样就保证了服务调用放方的线程不会被长时间不必要的占用，从而避免了故障在分布式系统中的蔓延，乃至雪崩

Hystrix能干嘛？

服务降级
服务熔断
接近实时的监控
…

官网资料

https://github.com/Netflix/Hystrix/wiki/How-To-Use

Hystrix停更进维

在这里插入图片描述

官方推荐替代品：resilience4j 或者 sentinel

Hystrix重要概念

服务降级（FallBack）

服务器忙，请稍后再试，不让客户端等待并立刻返回一个友好提示

哪些情况下会发生服务降级？

程序运行异常
执行开始，但没有在允许的时间内完成
服务熔断触发服务降级（断路器打开，不尝试执行）
线程池拒绝，不尝试执行
信号量拒绝，不尝试执行

服务熔断（Break）

类比保险丝达到最大服务访问后，直接拒绝访问，拉闸停电，然后调用服务降级的方法并返回友好提示

就是保险丝 —— 服务的降级 -> 进而熔断 -> 恢复调用链路

服务限流（FlowLimit）

秒杀高并发等操作，严禁一窝蜂的过来拥挤，大家排队，一秒钟N个，有序进行

Hystrix案例

构建

//新建PaymentServiceImpl
@Service
public class PaymentServiceImpl implements PaymentService {

    @Override
    public String paymentInfo_OK(Integer id) {
        return "线程池:" + Thread.currentThread().getName() + "paymentInfo_OK - ID:" + id;
    }

    @Override
    public String paymentInfo_TimeOut(Integer id) {
        try {
            TimeUnit.SECONDS.sleep(3);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        return "线程池:" + Thread.currentThread().getName() + "paymentInfo_TimeOut - ID:" + id + "耗时3秒";
    }
}

//新建PaymentController
@RestController
public class PaymentController {

    @Resource
    private PaymentService paymentService;

    @Value("$(server.port)")
    private String serverPort;

    @GetMapping("/payment/hystrix/ok/{id}")
    public String paymentInfo_OK(@PathVariable("id") Integer id){
        return paymentService.paymentInfo_OK(id);
    }

    @GetMapping("/payment/hystrix/timeout/{id}")
    public String paymentInfo_TimeOut(@PathVariable("id") Integer id){
        return paymentService.paymentInfo_TimeOut(id);
    }

}

Yaml文件配置

server:
  port: 8001

spring:
  application:
    name: cloud-provider-hystrix-payment
    
eureka:
  client:
    register-with-eureka: true
    fetch-registry: true
    service-url:
      defaultZone: http://eureka7001.com:7001/eureka/

访问http://localhost:8001/payment/hystrix/ok/11 可以正常访问，立即成功

访问http://localhost:8001/payment/hystrix/timeout/11 延迟三秒后访问成功

上述情况下在非高并发场景下还能满足，但是。。。

高并发测试

JMeter测试

开启JMeter，来2W并发压死8001，两万请求都去访问/payment/hystrix/timeout/11

在这里插入图片描述

再来访问一下http://localhost:8001/payment/hystrix/ok/11 发现这个也在转圈圈

为什么会被卡死呢？是因为tomcat的默认的工作线程数被打满了，没有多余的线程来分解压力和处理

JMeter压力测试结论

上面还是服务提供者8001自己测试，假如此时的外部消费者80也来访问，那消费者只能干等，最终导致消费者端80不满意，服务端8001直接被拖死

新建model消费者80加入

采用OpenFeign进行服务调用

//Service
@FeignClient("CLOUD-PROVIDER-HYSTRIX-PAYMENT")
public interface PaymentHystrixService {
    @GetMapping("/payment/hystrix/ok/{id}")
    String paymentInfo_OK(@PathVariable("id") Integer id);

    @GetMapping("/payment/hystrix/timeout/{id}")
    String paymentInfo_TimeOut(@PathVariable("id") Integer id);
}

//Controller 
@RestController
public class OrderHystrixController {

    @Resource
    private PaymentHystrixService paymentHystrixService;

    @GetMapping("/consumer/payment/hystrix/ok/{id}")
    public String paymentInfo_OK(@PathVariable("id") Integer id) {
        return paymentHystrixService.paymentInfo_OK(id);
    }

    @GetMapping("/consumer/payment/hystrix/timeout/{id}")
    public String paymentInfo_TimeOut(@PathVariable("id") Integer id) {
        return paymentHystrixService.paymentInfo_TimeOut(id);
    }
}

高并发测试

再次使用JMeter开启2W线程压服务提供者8001，然后消费端微服务80再去访问正常的OK微服务8001地址

http://localhost/consumer/payment/hystrix/ok/1

发现消费者端要么转圈圈等待时间长，要么报超时错误

故障现象和导致原因

8001同一层次的其它接口服务被困死，因为tomcat线程池里面的工作线程已经被挤占完毕

80此时调用8001，客户端访问响应变慢，导致转圈圈

结论：正因为有上述故障或表现不佳，才有我们的降级/容错/限流等技术产生

如何解决？解决的需求？

超时导致服务器变慢（转圈） —> 超时不再等待

出错（宕机或程序运行出错） —> 出错要有兜底

解决方案

对方服务（8001）超时了，调用者（80）不能一直卡死等待，必须有服务降级
对方服务（8001）宕机了，调用者（80）不能一直卡死等待，必须有服务降级
对方服务（8001）OK，调用者（80）自己出故障或需求（自己等待时间 < 服务提供者），自己处理降级

服务降级

降级配置：@HystrixCommand

8001自身找问题

设置自身调用超时时间的峰值，峰值内可以正常运行，超过了需要有兜底的方案，做服务降级FallBack

8001FallBack

@Service
public class PaymentServiceImpl implements PaymentService {

    @Override
    public String paymentInfo_OK(Integer id) {
        return "线程池:" + Thread.currentThread().getName() + "paymentInfo_OK - ID:" + id;
    }

    @Override
    @HystrixCommand(fallbackMethod = "paymentInfo_TimeOutHandler",commandProperties = {
            @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds",value = "3000")
    })
    public String paymentInfo_TimeOut(Integer id) {
        int a = 10 / 0;
        try {
            TimeUnit.SECONDS.sleep(5);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        return "线程池:" + Thread.currentThread().getName() + "paymentInfo_TimeOut - ID:" + id + "耗时3秒";
    }
    
	//处理时发现线程为Hystrix的线程
    public String paymentInfo_TimeOutHandler(Integer id) {
        return "线程池:" + Thread.currentThread().getName() + "paymentInfo_TimeOutHandler - ID:" + id + "/(ㄒoㄒ)/~~";
    }
}

一旦调用服务方法失败并抛出了错误信息后，会自动调用@HystrixCommand标注好的兜底方法来进行处理

我们在代码中分别制造两个异常

int a = 10/0 计算异常
我们能接受三秒钟，它运行五秒，超时异常

当前服务不可用了，做服务降级，兜底的方案都是paymentInfo_TimeOutHandler

主启动类激活：添加新的注解@EnableCircuitBreaker

80FallBack

80订单微服务，也可以更好地保护自己，自己也照葫芦画瓢进行客户端降级保护

主启动类：@EnableHystrix

注：@EnableHystrix其实就是继承了@EnableCircuitBreaker

@EnableCircuitBreaker
public @interface EnableHystrix {
}

ribbon:										#设置Ribbon超时时间5s
  ReadTimeout: 5000 		  #指的是建立连接后从服务器读取到可用资源的时间
  ConnectTimeout: 5000	  #指的是建立连接所用的时间，适用于网络状态正常的情况下，两端连接所用的时间

80消费者

@RestController
public class OrderHystrixController {

    @Resource
    private PaymentHystrixService paymentHystrixService;

    @GetMapping("/consumer/payment/hystrix/ok/{id}")
    public String paymentInfo_OK(@PathVariable("id") Integer id) {
        return paymentHystrixService.paymentInfo_OK(id);
    }

    @GetMapping("/consumer/payment/hystrix/timeout/{id}")
    @HystrixCommand(fallbackMethod = "paymentInfo_TimeOutHandler",commandProperties = {
            @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds",value = "1500")
    })
    public String paymentInfo_TimeOut(@PathVariable("id") Integer id) {
        return paymentHystrixService.paymentInfo_TimeOut(id);
    }

    public String paymentInfo_TimeOutHandler(Integer id) {
        return "消费者80,忙死了/(ㄒoㄒ)/~~";
    }
}

消费者80这里的超时时间设置为1.5秒，服务提供者8001可以通过（8001端设置允许5秒但是耗时3秒），但消费者80只等待1.5秒就转去执行兜底方案

目前问题

每一个业务方法对应一个兜底的方法，代码膨胀
业务逻辑方法和处理异常服务降级的方法混在一块，耦合度高

解决问题

每个方法配置一个？？？膨胀

@DefaultProperties：标注在类上，表示没有配过fallbackMethod的就找这个default全局通用的，配置过的就找自己配置的精确打击的

@DefaultProperties(defaultFallBack = “”)

1：1 每个方法配置一个服务降级方法，技术上可以，实际上很傻

1：N除了个别重要的任务有专属兜底方案，其他普通的都可以通过它统一跳转到统一处理结果页面

通用的和独享的各自分开，避免了代码膨胀，合理的减少了代码量

@RestController
@DefaultProperties(defaultFallback = "paymentGlobalFallbackMethod")
public class OrderHystrixController {

    @Resource
    private PaymentHystrixService paymentHystrixService;

    @GetMapping("/consumer/payment/hystrix/ok/{id}")
    public String paymentInfo_OK(@PathVariable("id") Integer id) {
        return paymentHystrixService.paymentInfo_OK(id);
    }


    @GetMapping("/consumer/payment/hystrix/timeout/{id}")
//    @HystrixCommand(fallbackMethod = "paymentInfo_TimeOutHandler",commandProperties = {
//            @HystrixProperty(name = "execution.isolation.thread.timeoutInMilliseconds",value = "1500")
//    })
    @HystrixCommand
    public String paymentInfo_TimeOut(@PathVariable("id") Integer id) {
        return paymentHystrixService.paymentInfo_TimeOut(id);
    }

    public String paymentInfo_TimeOutHandler() {
        return "消费者80,忙死了/(ㄒoㄒ)/~~";
    }

    public String paymentGlobalFallbackMethod() {
        return "全局异常处理信息，请稍后再试";
    }
}

和业务逻辑混在一起？？？混乱

服务降级，客户端去调用服务器端，遇到服务端宕机或关闭

修改客户端消费者80的程序，新建PaymentFallbackService实现Feign客户端接口

@Component
public class PaymentFallbackService implements PaymentHystrixService {
    @Override
    public String paymentInfo_OK(Integer id) {
        return "---PaymentFallbackService: paymentInfo_OK fallback ";
    }

    @Override
    public String paymentInfo_TimeOut(Integer id) {
        return "---PaymentFallbackService: paymentInfo_TimeOut fallback ";
    }
}

并在Feign客户端注解上新加一个fallback属性，指出用来兜底的服务降级类

@FeignClient(value = “CLOUD-PROVIDER-HYSTRIX-PAYMENT”,fallback = PaymentFallbackService.class)

最后在application.yml中开启Feign对于Hystrix支持，OpenFeign客户端将被Hystrix断路器包裹

feign:
  hystrix:
    enabled: true

关闭服务端8001，访问测试http://localhost/consumer/payment/hystrix/ok/22，发现此时的服务端8001虽然已经down了，但是我们做了服务降级处理，让客户端80在服务端不可用的情况下也会获得提示信息而不会挂起耗死服务器

服务熔断

熔断是什么？

熔断机制概述

熔断机制是应对雪崩效应的一种微服务链路保护机制，当扇出链路的某个微服务出错不可用或者响应时间太长时，会进行服务的降级，进而熔断该结点微服务的调用，快速返回错误的响应信息

当检测到该节点微服务调用响应正常时，恢复调用链路

在Spring Cloud框架里，熔断机制通过Hystrix实现，Hystrix会监控微服务间的调用情况

当失败的调用到了一定阈值，缺省是5秒内20次调用失败，就会启动熔断机制，熔断机制的注解是@HystrixCommand

附上martinfowler大神论文https://martinfowler.com/bliki/CircuitBreaker.html

理解

调用失败会出发降级，而降级会调用fallback方法
但无论如何降级，流程一定是先调用正常方法再调用fallback方法
假如单位时间内调用失败次数过多，也就是降级次数过多，则会触发熔断
熔断以后就会跳过正常方法直接调用fallback方法
所谓 “ 熔断服务不可用 ” 就是因为跳过了正常方法直接执行fallback

在这里插入图片描述

当失败的次数（降级次数）过多时，即达到了阈值满足了上图中threshold reached条件，触发服务熔断，断路器打开，假设我只能承受100的并发量每秒钟，而现在给我干到了500，所以我死掉了（跳闸），而其中存在第三种状态-半开-表示我已准备好进行再次试验，以查看问题是否已解决。比如过了一会没有那么多并发量了，我觉得我现在慢慢的能够承接的住了，比如现在每秒钟70的并发，我的上限还是100，那么我可以试试放过去一个试试能不能成功，慢慢的放着放着发现能够适应了，就把闸道合上，这就是从半开Half Open到Closed的过程

实操

修改支付微服务提供者8001的service与controller

//service新加两个测试方法
@HystrixCommand(fallbackMethod = "paymentCircuitBreaker_fallback",commandProperties = {
    	@HystrixProperty(name = "circuitBreaker.enabled",value = "true"),  //是否开启断路器
    	@HystrixProperty(name = "circuitBreaker.requestVolumeThreshold",value = "10"),   //熔断触发的最少个数/10s内
    	@HystrixProperty(name = "circuitBreaker.sleepWindowInMilliseconds",value = "10000"),  //熔断多少秒后去尝试请求
    	@HystrixProperty(name = "circuitBreaker.errorThresholdPercentage",value = "60"), //失败率达到多少后熔断
})
public String paymentCircuitBreaker(Integer id){
    if (id < 0){
        throw new RuntimeException("*****id 不能负数");
    }
    String serialNumber = UUID.randomUUID().toString();

    return Thread.currentThread().getName()+"\t"+"调用成功,流水号："+serialNumber;
}
public String paymentCircuitBreaker_fallback(Integer id){
    return "id 不能负数，请稍候再试,(┬＿┬)/~~     id: " +id;
}
 

//controller
@GetMapping("/payment/circuit/{id}")
public String paymentCircuitBreaker(@PathVariable("id") Integer id){
    return paymentService.paymentCircuitBreaker(id);
}

熔断打开和闭合的精确方式如下：

假设电路上的音量达到某个阈值（HystrixCommandProperties.circuitBreakerRequestVolumeThreshold()）
并假设误差百分比超过阈值误差百分比（HystrixCommandProperties.circuitBreakerErrorThresholdPercentage()）
然后，断路器从转换CLOSED为OPEN
当它断开时，它会使针对该断路器的所有请求短路
经过一段时间（HystrixCommandProperties.circuitBreakerSleepWindowInMilliseconds()）后，下一个单个请求被允许通过（这是HALF-OPEN状态）。如果请求失败，则断路器将OPEN在睡眠窗口持续时间内返回到该状态。如果请求成功，断路器将切换到，CLOSED并且1中的逻辑将再次接管

测试：测试http://localhost:8001/payment/circuit/-1，多次错误以后，慢慢正确，会发现刚开始的正确不满足条件，就算正确的访问地址也直接走降级，需要慢慢的恢复链路

总结

熔断类型

熔断关闭：熔断关闭不会对服务进行熔断
熔断打开：请求不再进行调用当前服务，当打开时常到所设时常则进入半熔断状态
熔断半开：部分请求根据规则调用当前服务，如果请求成功且符合规则则认为服务恢复正常，关闭熔断

断路器开启或关闭的条件

当满足一定阈值的时候（默认10秒内超过20的请求次数）
当失败率达到一定的时候（默认10秒内超过50%的请求失败）
到达以上阈值，断路器将会开启
当开启的时候，所有的请求都直接降级
一段时间以后（默认5S），断路器为半开状态，会让其中一个请求尝试，成功则断路器关闭，失败继续重复

断路器打开之后

再有请求调用的时候，将不会调用主逻辑，而是直接调用降级fallback。通过断路器，实现自动地发现错误并将逻辑切换，减少响应延迟的效果
当断路器打开，对主逻辑进行熔断以后，Hystrix会启动一个休眠时间窗，在时间窗内，降级逻辑是临时的成为主逻辑，当休眠时间窗到期，断路器将进入半开状态，释放一次请求到原来的主逻辑上，如果此时请求正常返回，那么断路器将继续闭合，主逻辑恢复，如果这次请求依然有问题，断路器继续进入打开状态，休眠时间闯关重新计时

在这里插入图片描述

服务熔断一般放在服务端，而服务降级一般放在消费端

服务限流

为什么需要限流

复杂分布式系统通常有很多依赖，如果一个应用不能对来自依赖故障进行隔离，那么应用本身就处在被拖垮的风险中。在一个高流量的网站中，某个单一后端一旦发生延迟，将会在数秒内导致所有应用资源被耗尽
如秒杀、抢购、双十一等场景，在某一时间点会有爆发式的网络流量涌入，如果没有好的网络流量限制，任由流量压到后台服务实例，很有可能造成资源耗尽，服务无法响应，甚至严重的导致应用崩溃

以后在学习Alibaba的sentinel的时候在做说明

服务监控HystrixDashboard

概述

除了隔离依赖服务的调用以外，Hystrix还提供了准实时的调用监控（Hystrix Dashboard），Hystrix会持续的记录所有通过Hystrix发起的请求的执行信息，并以统计报表和图形的形式展现给用户，包括每秒执行多少请求，多少成功多少失败Netflix通过hystrix-metrics-event-stream项目实现了对以上指标的监控。Spring Cloud也提供了HystrixDashboard的整合，对监控内容转化为可视化界面

仪表盘9001

新建9001监控项目引入依赖

    <dependencies>
        <!--新增hystrix dashboard-->
        <dependency>
            <groupId>org.springframework.cloud</groupId>
            <artifactId>spring-cloud-starter-netflix-hystrix-dashboard</artifactId>
        </dependency>
        <!--注意所有的Provider微服务提供者（8001，8002 ...）都需要依赖监控配置-->
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-actuator</artifactId>
        </dependency>
        <dependency>
            <groupId>org.springframework.boot</groupId>
            <artifactId>spring-boot-starter-test</artifactId>
            <scope>test</scope>
        </dependency>
    </dependencies>

YML

server:
  port: 9001

主启动类新增**@EnableHystrixDashboard**

@SpringBootApplication
@EnableHystrixDashboard
public class HystrixDashboard9001 {
    public static void main(String[] args) {
        SpringApplication.run(HystrixDashboard9001.class,args);
    }
}

启动项目访问 http://localhost:9001/hystrix

断路器演示

修改8001

    /**
     * 此配置是为了服务监控而配置，SpringCloud升级以后的坑
     * ServletRegistrationBean因为springboot的默认路径不是 /hystrix.stream
     * 只要在自己项目里配置下面的servlet就可以了
     * @return
     */
    @Bean
    public ServletRegistrationBean<Servlet> getServlet(){
        HystrixMetricsStreamServlet streamServlet = new HystrixMetricsStreamServlet();
        ServletRegistrationBean<Servlet> registrationBean = new ServletRegistrationBean<Servlet>(streamServlet);
        registrationBean.setLoadOnStartup(1);
        registrationBean.addUrlMappings("/hystrix.stream");
        registrationBean.setName("HystrixMetricsStreamServlet");
        return registrationBean;
    }