![](https://img-blog.csdnimg.cn/20190918135101160.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
事故现场-我的心脏重塑过程
记录每一次惊心动魄的救火过程,
谨记心脏的炼狱,
终将无坚不摧、波澜不惊
Janelare
码农
展开
-
登录不了啦,redis彻底垮啦---这次不是redis的锅,是阿里云的锅
立刻联系阿里处理问题,大概是那边将“变配中”状态改为“运行中”,绿色的“运行中”如此耀眼,一切又恢复如初。运维同事立刻下了单升级redis配置,工单上写的是,02:00 -06:00执行。下午4点多下单,5点半突然用户页面都跳转回了登录页,且无法再登录了。:以后线上要动啥,都只能晚上动,不能白天动,不然鬼知道哪里会冒火,阿里的程序也是人写的,也有不靠谱的时候,不能全寄托他人,唯有严格克制自己!领导一阵狂骂,运维委屈,我也委屈,我只是提出问题,运维只是下了个工单,然后就发生了近半个小时的系统瘫痪。...原创 2022-08-12 20:16:22 · 555 阅读 · 0 评论 -
因将大量的设备转到了瑞云,导致瑞云平台阅片不正常
连续两个周二凌晨,分别转入300台口扫设备到瑞云服务器。第一次后无明显现象,第二次转300台后白天使用量大时,瑞云总服务器CPU爆掉,无法阅片,前线紧急。其实通过阿里云运维后台可以看出近两周以来,cpu是在异常上升的过程。避免办法:维护设置了服务器的CPU报警机制,且定期检查服务器状态。通过上诉避免办法,是可以提早发现问题的。解决办法:运维升级瑞云服务器配置。...原创 2022-08-12 19:56:59 · 217 阅读 · 0 评论 -
它突然就不好了 ----Go 调用C++异常
在此程序中总共调用了2个C++提供的dll程序,本次出问题的是其中一个,另一个正常。可能阿里云的服务器在事故前更新了什么鬼,导致其中一个比较老板的vs编译出来的dll出问题了,而且问题原因不明。领导的电话不停打进来,他很急,我知道,因为刚好那天老板要给重要客户演示我们的整个系统及设备的运作。果然,是一个工具端同事打来的,噼里啪啦的说,所有的阅片都访问不了啦,你快看看呀,我这边查了日志发你了。早上八点多一点,微信就响起来了,顿感不妙,不是来自女人的第六感,那是来自职业的第一感。然鹅,我的那个周五漆黑一片。..原创 2022-08-12 16:59:59 · 558 阅读 · 0 评论 -
AI调度程序突然很多推送AI任务失败----是redis的锅吗
为什么redis突然异常了?因为计算服务器每同步一次状态给调度服务器,需要往redis里记录一次接口调用计数。每操作一次redis需要20s,一次同步状态的接口需要访问2次redis,所以跟猜测原因2一致。现象:后天监控大面积CT的AI推送失败,查了一下日志,是应该AI计算服务器正在忙碌的时候,调度程序又推送任务过去,AI计算程序拒绝接收任务而报错。好在此应用中redis仅用来统计接口调用次数,没有业务逻辑,所以很好去掉,也不会影响功能。:计算服务器的状态与AI调度服务器记录的计算服务器状态不一致。...原创 2022-08-12 16:27:13 · 365 阅读 · 0 评论