文章目录
Hystrix
概述
- 分布式可能的问题
复杂分布式体系结构中的应用程序有数十个依赖关系,每个依赖关系在某些时候将不可避免的失败
- Hystrix
Hystrix是一个用于处理分布式系统的
延迟
和容错
的开源库,在分布式系统里,许多依赖不可避免的会调用失败。(如超时,异常)Hystrix能够保证在一个依赖出问题的情况下,不会导致整体服务失败,避免联机故障,以提高分布式系统的弹性
- 断路器
"断路器"本身是一种开关装置,当某个服务单元发生故障之后,通过断路器的故障监控(类似熔断保险丝),
向调用放返回一个符合预期的、可处理的备选响应(FallBack),而不是长时间的等待或者抛出调用方无法处理的异常
,这样既保证了服务调用方的线程不会被长时间、不必要的占用,从而避免了故障在分布式系统中的蔓延乃至雪崩
服务雪崩
多个微服务之间调用的时候,假设微服务A调用微服务B和微服务C,微服务B和微服务C又调用其他的微服务,这就是所谓的
扇出
。如果扇出的链路上某个微服务的调用响应时间过长或不可用,对微服务A的调用就会占用越来越多的系统资源,进而引起系统崩溃,所谓的雪崩效应
主要作用
- 服务降级
- 服务熔断
- 接近实时的监控
三个重要概念
1. 服务降级(fallback)
服务器忙,请稍后再试,不让客户端等待并立刻返回一个友好提示
哪些情况会发出降级
- 程序运行时异常
- 超时
- 服务熔断触发服务降级
- 线程池/信号量打满也会导致服务降级
2. 服务熔断(break)
类比保险丝达到最大服务访问后,
直接拒绝访问,拉闸限电
,然后调用服务降级的方法并返回友好提示
- 服务降级 -> 进而熔断 -> 恢复调用链路
3. 服务限流(flowlimit)
秒杀,高并发等操作,
严禁一蜂窝的过来拥挤,大家排队
,一秒钟N个,有序进行
hystrix案例
1. 构建
- pom
<!--hystrix-->
<dependency>
<groupId>org.springframework.cloud</groupId>
<artifactId>spring-cloud-starter-netflix-hystrix</artifactId>
</dependency>
<!--eureka client-->
<dependency>
<groupId>org.springframework.cloud</groupId>
<artifactId>spring-cloud-starter-netflix-eureka-client</artifactId>
</dependency>
- yml
server:
port: 8001
spring:
application:
name: cloud-provider-hystrix-payment
eureka:
client:
register-with-eureka: true
fetch-registry: true
service-url:
#defaultZone: http://eureka7001.com:7001/eureka,http://eureka7002.com:7002/eureka
defaultZone: http://eureka7001.com:7001/eureka
- 模拟server层
@Service
public class PaymentService {
public String paymentInfo_OK(Integer id){
return "线程池:"+Thread.currentThread().getName()+" paymentInfo_OK,id: "+id+"O(∩_∩)O哈哈~";
}
public String paymentInfo_TimeOut(Integer id){
int timeOut = 4;
try{
TimeUnit.SECONDS.sleep(timeOut);
}catch(Exception e){
e.printStackTrace();
}
return "线程池:"+Thread.currentThread().getName()+" paymentInfo_TimeOut,id: "+id+"O(∩_∩)O哈哈~耗时(s)"+timeOut;
}
}
- controller
@RestController
@Slf4j
public class PaymentController {
@Resource
private PaymentService paymentService;
@Value("${server.port}")
private String serverPort;
@RequestMapping(value = "/payment/hystrix/ok/{id}")
public String paymentInfo_OK(@PathVariable("id") int id){
String res = paymentService.paymentInfo_OK(id);
log.info("=====result:{}"+res);
return res;
}
@RequestMapping(value = "/payment/hystrix/timeout/{id}")
public String paymentInfo_TimeOut(@PathVariable("id") int id){
String res = paymentService.paymentInfo_TimeOut(id);
log.info("=====result:{}"+res);
return res;
}
}
2. 用Jmeter测压
正常的ok请求也会延迟
原因:tomcat的默认工作线程数被打满了,没有多余的线程来分解压力和处理
结论:正因为有上述故障或不佳表现,所以需要降级、容错、限流等技术诞生
- 解决的要求
超时导致服务器变慢(转圈):超时不再等待
出错(宕机或程序运行出错):出错要有兜底
服务降级
一般在客户端设置兜底方法,服务方也可,两者独立
服务方降级
- service方法
//描述发生错误时方法,包括运行错误及自定义的规则
@HystrixCommand(fallbackMethod = "paymentInfo_TimeOutHandler",commandProperties = {
//超过3s就出错
@HystrixProperty(name="execution.isolation.thread.timeoutInMilliseconds",value="5000")
})
public String paymentInfo_TimeOut(Integer id){
int timeOut = 3;
try{
TimeUnit.SECONDS.sleep(timeOut);
}catch(Exception e){
e.printStackTrace();
}
return "线程池:"+Thread.currentThread().getName()+" paymentInfo_TimeOut,id: "+id+"O(∩_∩)O哈哈~耗时(s)"+timeOut;
}
//兜底方法的实现
public String paymentInfo_TimeOutHandler(Integer id){
return "线程池:"+Thread.currentThread().getName()+" 8001系统繁忙,请稍后再尝试,id: "+id+"(⊙︿⊙)";
}
- 主启动类
@EnableCircuitBreaker
消费方降级
- yml
feign:
hystrix:
enabled: true
- controller
@RequestMapping(value = "/consumer/payment/hystrix/timeout/{id}",method = RequestMethod.GET)
//描述发生错误时方法,包括运行错误及自定义的规则
@HystrixCommand(fallbackMethod = "paymentInfoTimeOutFallbackMethod",commandProperties = {
//超过3s就出错
@HystrixProperty(name="execution.isolation.thread.timeoutInMilliseconds",value="1500")
})
public String paymentInfo_TimeOut(@PathVariable("id") int id){
return paymentHystrixService.paymentInfo_TimeOut(id);
}
//兜底方法的实现
public String paymentInfoTimeOutFallbackMethod(@PathVariable("id") int id){
return "消费者80:对方系统繁忙,或者自己系统繁忙,请稍后再试";
}
- 主启动类
@EnableHystrix
配置全局fallback方法
- controller上加注解
@RestController
@DefaultProperties(defaultFallback = "paymentGlobalFallbackMethod")
public class OrderHystrixController {
- 接口+实现类统一配置
- 接口实现类
@Service
public class PaymentFallbackService implements PaymentHystrixService {
private static String R = "------PaymentFallbackService fall,o(╥﹏╥)o ==> ";
@Override
public String paymentInfo_OK(int id) {
return R+"paymentInfo_OK";
}
@Override
public String paymentInfo_TimeOut(int id) {
return R+"paymentInfo_TimeOut";
}
}
- 接口注解
@Service
//比controller处优先触发,超时,错误,对方宕机均会触发
@FeignClient(value = "CLOUD-PROVIDER-HYSTRIX-PAYMENT",fallback = PaymentFallbackService.class)
public interface PaymentHystrixService {
@RequestMapping(value = "/payment/hystrix/ok/{id}",method = RequestMethod.GET)
String paymentInfo_OK(@PathVariable("id") int id);
@RequestMapping(value = "/payment/hystrix/timeout/{id}",method = RequestMethod.GET)
String paymentInfo_TimeOut(@PathVariable("id") int id);
}
服务熔断
1. 熔断机制概述
- 熔断机制是应对雪崩效应的一种为服务链路保护机制,当扇出链路的某个微服务出错不可用或者响应时间太长时,会进行服务的降级,进而熔断该节点微服务的调用,快速返回错误的响应信息
当检测到该节点为服务调用响应正常后,恢复调用链路
- 在Spring Cloud框架里,熔断机制通过Hystrix实现,Hystrix会监控微服务间调用的状况,当失败的调用达到一定阈值,缺省是5s内20次失败调用,就会启动熔断机制。熔断机制的注解是@HystrixCommand
2. 熔断类型
- 熔断打开
请求不再进行调用当前服务,内部设置时钟一般为MTTR(平均故障处理时间),当打开时长达到所设时钟则进入半熔断状态
- 熔断关闭
熔断关闭不会对服务进行熔断
- 熔断半开
部分请求根据规则调用当前服务,如果请求成功且符合规则则认为当前服务恢复正常,关闭熔断
3. 断路器三个重要参数
- 快照时间窗
断路器确定是否打开需要统计一些请求和错误数据,而统计的时间范围就是快照时间窗,默认为最近的10s
- 请求总数阈值
在快照时间窗内,必须满足请求总数阈值才有资格熔断。默认20,意味着10s内,如果该hystrix命令的调用次数不足20次,即使所有的请求都超时或其他原因失败,断路器都不会打开
- 错误百分比阈值
默认50%,当请求总数在快照时间窗内超过了阈值,比如发生了30次调用,有15次异常,即超过50%错误百分比,此时断路器会打开
4. 断路器开启,关闭的条件
- 当满足一定的阈值的时候(默认10s内超过20个请求)
- 当失败率达到一定的时候(默认10s内超过50%的请求失败)
- 达到以上阈值,断路器开启
- 当开启的时候,所有请求都不会转发
- 一段时间后(默认5s),这个时候断路器是半开状态,会让其中一个请求进行转发,若成功,断路器关闭,若失败,继续开启,重复4和5
5. 断路器打开之后
- 再有请求调用的时候,将不会再调用主逻辑,而是直接调用降级fallback。通过断路器,实现了自动的发现错误并将降级逻辑切换为主逻辑,减少相应延迟的效果
- 原来的主逻辑如何恢复
hystrix有自动恢复功能
- 当断路器打开,对主逻辑进行熔断之后,hystrix会启动一个休眠时间窗,这个时间内降级逻辑临时成为主逻辑
- 当休眠时间窗到期,断路器将进入半开状态,释放一次请求到原来的主逻辑上,如果此次请求正常返回,那么断路器将继续闭合,主逻辑恢复,如果这次请求依然有问题,断路器继续进入打开状态,休眠时间窗重新计时
6. 配置
- service处
//======服务熔断 HystrixCommandProperties
@HystrixCommand(fallbackMethod = "paymentCircuitBreaker_fallback",commandProperties = {
@HystrixProperty(name = "circuitBreaker.enabled",value = "true"), // 是否开启断路器
@HystrixProperty(name = "circuitBreaker.requestVolumeThreshold",value = "10"), // 请求次数
@HystrixProperty(name = "circuitBreaker.sleepWindowInMilliseconds",value = "10000"),// 时间窗口期
@HystrixProperty(name = "circuitBreaker.errorThresholdPercentage",value = "60"),// 失败率达到多少后跳闸
})
public String paymentCircuitBreaker(@PathVariable("id") Integer id){
if(id < 0){
throw new RuntimeException("*********id 不能负数");
}
String serialNumber = IdUtil.simpleUUID();
return Thread.currentThread().getName()+"\t"+"调用成功,流水号:"+serialNumber;
}
public String paymentCircuitBreaker_fallback(@PathVariable("id") Integer id){
return "id 不能负数,请稍后再试,o(╯□╰)o id:"+id;
}
- 主启动类
@EnableCircuitBreaker
- 效果:当10s内超过10次请求且6次以上为负数时,一段时间内就算正数也会调用fallback方法
7. 参考配置
服务限流
工作机制
服务可视化(HystrixDashboard)
- pom(监控方)
<dependency>
<groupId>org.springframework.cloud</groupId>
<artifactId>spring-cloud-starter-netflix-hystrix-dashboard</artifactId>
</dependency>
<!-- 被监控方也要加入该依赖 -->
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-starter-actuator</artifactId>
</dependency>
- 主启动类
@EnableHystrixDashboard
/**
*此配置是为了服务监控而配置,与服务容错本身无关,springcloud升级后的坑
*ServletRegistrationBean因为springboot的默认路径不是"/hystrix.stream",
*只要在自己的项目里配置上下面的servlet就可以了
*/
@Bean
public ServletRegistrationBean getServlet() {
HystrixMetricsStreamServlet streamServlet = new HystrixMetricsStreamServlet();
ServletRegistrationBean registrationBean = new ServletRegistrationBean(streamServlet);
registrationBean.setLoadOnStartup(1);
registrationBean.addUrlMappings("/hystrix.stream");
registrationBean.setName("HystrixMetricsStreamServlet");
return registrationBean;
}
-
调配
-
访问地址
http://localhost:9001/hystrix
- 图示说明