监控和故障
mUncleWang
大道至简,悟在天成。
展开
-
socket消息推送延迟-fwrite引发的血案
最近有同事反映,自己的推送消息延迟严重,最长的大概一分钟左右,导致相关业务逻辑受影响,但是类似的业务在JS client 却没有问题,只是在PHP client上延迟严重。该业务对消息及时性要求非常高,于是领导要求尽快查清原因,并解决问题。问题重现同事给我现场演示,发现问题确实存在。以前并没有遇到此类问题,直觉猜想可能跟前几天为解决带宽占用问题,使用的消息队列有关系。检查消息队列的日志,发...原创 2018-06-16 18:08:48 · 3608 阅读 · 0 评论 -
故障排查——CPU使用率过高
本篇将介绍CPU使用率过高的处理方案。CPU使用率CPU使用率过高,跟内存和进程都有关系,例如复杂运算,一般都会导致CPU升高。使用top命令查看(按1可以查看多核的CPU使用情况):产生原因第三行 CPU 占用率根据类型有以下几种情况:(us) user:CPU 在低 nice 值(高优先级)用户态所占用的时间(nice<=0)。正常情况下只要服务器不是很闲,那么大部分的 C...原创 2019-03-10 12:08:08 · 7251 阅读 · 0 评论 -
故障排查——内存使用率过高
本篇将介绍服务器内存使用率过高的处理方案。内存使用率产生原因排查步骤健康范围原创 2019-03-10 10:48:39 · 9825 阅读 · 0 评论 -
故障监控——磁盘使用率告警
本篇将介绍磁盘占用过多的处理方案。磁盘占用率linux下使用df -hl可以查看当前服务器使用情况。产生原因应用服务器上一般来说,持续写入,产生巨大的文件,一般是日志类文件,如果是db的服务器的话,要注意数据的增长率。排查步骤服务器还可以登录使用df -h查看服务器磁盘占用情况使用find / -size +100M |xargs ls -lh查找大文件列表找到相应的文件...原创 2019-03-13 22:44:34 · 2165 阅读 · 0 评论 -
自助Linux之问题诊断工具strace
原文链接引言“Oops,系统挂死了…”“Oops,程序崩溃了…”“Oops,命令执行报错…”对于维护人员来说,这样的悲剧每天都在上演。理想情况下,系统或应用程序的错误日志提供了足够全面的信息,通过查看相关日志,维护人员就能很快地定位出问题发生的原因。但现实情况,许多错误日志打印模凌两可,更多地描述了出错时的现象(比如”could not open file”,”connect ...转载 2018-03-13 15:12:05 · 321 阅读 · 0 评论 -
故障排查——负载Load过高
相信管理过服务器的朋友们都收到过服务器负载过高的报警,今天我们一起来分析下关于服务器负载的那些事儿.一、load average首先,了解下平均负载: top命令中load average显示的是最近1分钟、5分钟和15分钟的系统平均负载。 系统平均负载被定义为在特定时间间隔内运行队列中(在CPU上运行或者等待运行多少进程)的平均进程数。 如果一个进程满足以下条件则其就会位于运行...转载 2019-03-07 23:54:20 · 6609 阅读 · 0 评论 -
系统性能优化策略案例
XX银行网银系统是一套全新的对公业务渠道类系统,经过两年的建设,将逐步对外提供服务。该系统融合了原来多个对公渠道系统,并发量是以前多个系统之和,吞吐量要求将大幅上升。为了使广大对公客户使用系统时获得更快的响应时间体验,项目组对系统进行了持续的性能测试和优化。这一过程中,形成了一套针对新建系统进行性能测试和优化的方法论。该方法论包括测试环境准备、测试功能优先级、性能优化原则、常用性能指标及工具、...转载 2019-01-13 21:21:28 · 7346 阅读 · 0 评论 -
socket带宽占用过高?
最近部署服务器集群的时候,查看了下原来单节点的配置,4核8G+8M带宽,跟领导申请是否需要保持配置,领导让根据实际情况调整下,尤其带宽部分,带宽太贵了主要是。登录服务器之后,top下发现,cpu、内存占用并不高,iftop -i eth0,之后发现带宽占用居然有5M,检查在线人数发现,并没有太多。这个流量有4M来自某个ip,登录嫌疑ip服务器,检查端口占用情况:netstat -antp ...原创 2018-06-16 19:42:07 · 3585 阅读 · 2 评论 -
socket 莫名其妙的断开连接?
之前有客户反馈,经常会收到客户端断开连接的提醒。影响聊天,希望能查下问题。开始我以为是用户网络波动,导致的连接断开,后来同事跟我反馈,网络正常的时候也会出现断开连接的现象,希望我查下服务器是否配置了什么,会话保持时长之类的参数。问题重现这个问题在c++端比较容易重现,在web端偶现,移动端却没发生过。难道是移动端一直没用户使用,所以他们也不知道?额,不能这样想,不然容易被打。一定是有人用的...原创 2018-06-16 19:04:53 · 31143 阅读 · 4 评论 -
故障监控——服务器带宽告警
本篇将介绍带宽占用过多的处理方案。磁盘占用率linux下使用iftop -i eth0可以查看当前服务器某网卡流量占用情况。产生原因web网站比较占带宽的一般是些静态资源,css/js 之类的,如果是socket连接之类的,得看客户端连接数。排查步骤服务器还可以登录使用iftop -i eth0查看业务网卡流量情况根据靠前的ip地址,定位流量较高的机器检查具体机器上的端口...原创 2019-04-30 13:48:07 · 1072 阅读 · 0 评论