背景
线上APP大范围推广后,要求我们的系统需要满足不停机升级;
运维小伙伴发布服务不能在白天,一般就只能在凌晨进行发版,这很大的原因也是因为我们系统不能很好的支持优雅停机;
现状与挑战:
站在技术层面来说,我们的系统使用的组件种类繁多,即使是同一组件也有不同业务使用了不同版本的情况,这给我们想要系统化的进行服务优雅停机带来了一定挑战。
未来可期:
虽然挑战很大,但如果我们攻坚了这一课题,带来的回报是可想而知的,在能支持APP不停机升级的前提下,我们的工作流程可能会发生一些改变:
- 发布流程将带来革命性的改变,可随时发版,大大减轻运维伙伴长期熬夜的痛苦
- 从项目上来说,迭代周期更加灵活,更符合敏捷,也应该是我们DevOps运转中不可或缺的一环
- ..........................
术语百科:
优雅停机:
何为优雅停机,简单说就是,在对应用进程发送关闭指令之后,能保证正在执行的业务操作不受影响。
应用接收到关闭指令之后的步骤应该是,停止接收访问请求,等待已经接收到的请求处理完成,并能成功返回,最后再关闭应用。
收到关闭指令
↓
停止接受新请求
↓
等待已接收的请求处理完成并返回
↓
关闭应用
关闭指令:![](https://i-blog.csdnimg.cn/blog_migrate/385f4785c3833d91e2255c64eef2155c.png)
常用的几个指令:
kill -2 程序终止(interrupt)信号, 通常 Ctrl+C 就是发的此信号量
kill -9 暴力杀死一个进程
kill -15 正常停止一个进程,可以理解为发送一个通知,告知应用主动关闭
目前我们使用的关闭指令: supervisorctl stop 服务名, 通过supervisor源码可发现,其实就是利用python的signal模块,发送SIGTERM信号量,等同于 kill -15
我们需要知道的是,并不是所有情况都能优雅停机服务
停机方案:
应用服务停机步骤
1、检查应用服务状态
发送单个服务心跳检测指令。
curl -X PUT '127.0.0.1:8848/nacos/v1/ns/instance/beat?serviceName=nacos.test.2&beat=%7b%22cluster%22%3a%22c1%22%2c%22ip%22%3a%22127.0.0.1%22%2c%22metadata%22%3a%7b%7d%2c%22port%22%3a8080%2c%22scheduled%22%3atrue%2c%22serviceName%22%3a%22jinhan0Fx4s.173TL.net%22%2c%22weight%22%3a1%7d'
2、调用nacos服务下线
调用nacoas openapi 注销服务指令
curl -X DELETE '127.0.0.1:8848/nacos/v1/ns/instance?serviceName=nacos.test.1&ip=1.1.1.1&port=8888&clusterName=TEST1'
3、关停应用服务
kill -15
成功返回0。失败返回-1
应用服务收到以上SIGINT 后,会执行以下操作:
1. 下线Nacos服务
2. 拒绝接受新HTTP请求,等待处理完成已经收到的HTTP请求,销毁Web容器
3. 拒绝接受新的xxl-job调度任务,等待已经调度了的任务执行完成,注销xxl-job执行器
4. 等待RabbitMQ接收的消息消费完成,注销消费者客户端
5. 等待RocketMQ接收的消息消费完成,注销消费者客户端
6. 处理@Scheduled方式的定时任务,等待所有已经调度的任务执行完成
7. 处理异步注解@async的任务,等待异步线程执行完成
8. 处理其它线程类的任务,等待线程执行完成
4、确认应用服务状态
- hosts: xxf-stock-233
ignore_errors: True
tasks:
- name: 检测进程
shell: ps -ef | grep xxf-stock |wc -l
register: check_value
- name: 输出信息
shell: ech