今天线上突然报警,好多rpc调用失败。只是其中一台机器报警,项目没有上线,但是解决这类问题一点思路都没有,求助OP。
OP检测机器状态,发现CPU很高,查看是否脚本在执行,有许多脚本(50个)在执行。top命令看下,脚本占用的CPU很高。然后OP说主要原因是网关压力大。
网关压力大,我之前就没有听说过。顿时感觉自己还是个渣渣。
解决方法,根据业务情况停掉脚本。降低脚本执行的频次。多台机器分担这些脚本均可。
查看机器CPU
top
查看机器IO
top
查看机器网卡
sar -n DEV 1 5