接口级故障的应对方法

作者:短暂瞬间
链接:https://www.jianshu.com/p/3f02e09a243a

什么是接口级故障?

异地多活方案主要是应对影响大但发生概率较小的系统级故障,而发生概率更高但故障影响较小的故障就是接口级的故障。
接口级故障的典型表现:业务出现问题,但不是系统宕机或网络中断,比如响应慢、访问超时、访问异常、无法连接数据库等。

接口级故障原因

  • 主要原因:系统压力太大、负载太高,导致无法快速处理业务请求

  • 内部:程序bug导致死循环、某接口导致数据库慢查询、程序逻辑不完善导致内存耗尽

  • 外部:黑客攻击、促销或抢购引入超量用户、第三方系统大量请求、第三方系统响应缓慢

接口级故障的应对方法

核心思想:优先保证核心业务、优先保证绝大部分用户

应对方法一:降级

定义:系统将某些业务或者接口的功能降低,可以是只提供部分功能,也可以是完全停掉所有功能。核心思想就是丢车保帅,优先保证核心业务。

两种降级方式:

  1. 系统后门降级

  • 系统预留了后门用于降级操作

  • 实现成本低

  • 效率较低,且有一定安全隐患

  1. 独立降级系统

  • 设计独立的降级系统,降级指令通过降级系统发送给非核心业务系统实现降级

  • 安全性高,可实现复杂权限管理、批量管理

  • 实现成本高

应对方法二:熔断

定义:当本系统依赖的外部系统接口出现响应慢的情况时,立即返回错误,避免本系统被拖慢或拖死。降级的目的是应对系统自身的故障,而熔断的目的是应对依赖的外部系统故障的情况。

实现关键:需要一个统一的API调用层,由API掉用层进行采样或统计;需确定一个熔断阈值。

应对方法三:限流

定义:从用户访问压力的角度着手,只允许系统能够承受的访问量进来,超出系统访问能力的请求将被丢弃。

常见的两类限流方式:

  1. 基于请求限流

  • 从外部访问请求角度限制总量或限制时间量

  • 限制总量的方式是限制某个指标的累积上限,常见的是限制当前系统服务的用户总量

  • 限制时间量指限制一段时间内某个指标的上限

  • 实现简单,但难以找到合适的阈值

  • 适用于业务功能比较简单的系统,如负载均衡系统、网关系统、抢购系统

  1. 基于资源限流

  • 从系统内部角度找到影响性能的关键资源,限制其使用上限

  • 常见内部资源:连接数、文件句柄、线程数、请求队列

  • 可以更加有效地反映当前系统压力

  • 难点在于如何确定关键资源和关键资源的阈值

应对方法四:排队

定义:限流的一个变种,限流是直接拒绝用户,排队则是让用户等待一段时间。如12306网站抢票排队。

实现方式:

  • 需设计独立的系统实现,包含排队模块、调度模块、服务模块

  • 排队模块需临时缓存大量业务请求

  • 调度模块负责排队模块到服务模块的动态调度,不只传递请求,还需要调节系统处理能力

  • 服务模块负责返回处理结果

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值