线上环境相关事项专栏
文章平均质量分 69
生产BUG排查、生产事故复盘。。。
Kyle0432
我是小白,但我很帅!
展开
-
线上突然遇到一个接口很慢怎么办?
首先我们要快速定位接口的哪一个环节比较比较慢,性能瓶颈在哪里?某一天早上,正在上班路上,突然间手机滴滴不断收到大量告警提醒,赶紧查看了下告警信息,结果显示某个接口出现大量超时,平均响应时间超过3s,这个时候怎么办,是不是有点慌?我这里给大家分享以下。. 调用第三方设置合理的超时时间,比如你的接口是高并发接口,从自身对方接口的要求和对方线上P95接口的平均rt,综合设置超时时间。. 循环调用,改为单次批量调用,减少IO损耗(比如调用AB接口,根据用户ID、分组ID多个,for调用改为一次传多个分组ID)原创 2024-03-27 15:55:11 · 470 阅读 · 0 评论 -
项目上线的过程需要注意哪些事项?
A/Btest是指用户打开软件后,一部分用户看到的老业务A的业务流程,另一部分看的是新功能B的业务流程。一、对于项目中出现的问题,要找原因。比如说项目延期,可能每次都会出现,但每次出现的原因并不一样。二、对于项目中做的好的,也要讲,该表扬表扬,能推广的推广。我们经常说要打造组织文化,对工程师群体来说,组织文化就是在项目过程中生长起来的。上线之前,先在测试环境预上线一次,把所有的相关环节的资料和流程用清单的形式记录好。清单的要素包括:什么人,在什么时间,需要准备哪些资料、SQL脚本等等,做什么事。原创 2024-04-09 15:25:19 · 432 阅读 · 0 评论 -
遇到P0级别事故如何项目复盘!
1)优化redis大key:事发当晚,针对redis大key场景,引入本地缓存作为一级缓存,接口优先从本地缓存读取数据,减少对redis中间件的压力,优化后redis运行比较平稳。2)增加系统异常预案处理:在配置中心增加动态关闭接口的开关,一旦出现系统即将不可用的情况,立即打开开关,进行人工降级,并返回兜底数据,等待系统资源正常后,4)性能压测必须输出一套统一的标准,压测的测试场景与线上高度还原,接口如果达不到业务要求上线的标准,测试同学通过邮件报备,与PM商量后是否延期需求,原创 2024-04-15 10:20:14 · 884 阅读 · 0 评论 -
线上CPU飙高如何处理?
3)考虑到折扣策略数据量没那么大,针对redis 大key,优化缓存读写策略,引入本地+redis的二级缓存,优先读取本地缓存,减少对redis的冲击。某一天下午业务高峰期,突然收到线上服务CPU冲高,线程池被打满,几分钟之内,服务很快进入假死状态,系统频繁重启,客户反馈小程序或APP各种系统异常。4) 本地缓存失效,在应用中打印告警日志,配合监控系统告警研发同学,人工介入,触发job,重刷缓存,保存本地缓存能快速恢复。2)收到线上CPU和线程池打满的告警后,从线上dump线程运行情况,开始定位问题。原创 2024-04-16 15:37:16 · 373 阅读 · 0 评论