问题排查
文章平均质量分 76
当头冷水
这个作者很懒,什么都没留下…
展开
-
记一次大事务导致的数据库死锁引起线上服务器load飙升的故障
一、背景描述公司业务系统由多个语言开发,核心业务由.net团队支持,数据存储在sqlServer中,为了使用这些数据由JAVA团队在上层做一个数据聚合平台,创建了个职责单一的新应用来做数据转换,同步到底层mysql数据库中,对外提供了一个标准接口由业务方通过定时任务分批同步,支持一次传输多条数据,数据同步策略是每秒6个线程并发同步5条记录,同步失败会在1,2,4s内重试三次二、故障现场第一次故障现象: api层服务异常日志告警,同步数据服务dubbo服务超时5s,但是业务应用中没有任何异常日志,跟业原创 2020-12-29 14:58:52 · 1939 阅读 · 0 评论 -
记一次线上服务器load高问题定位和解决
1.top 查看load free空间还很大 应该不是GC导致的分析下面的进程,发现java进程占用了100%的CPU2.查找java进程下面的哪个线程占用CPU高ps -ef|grep java 获取PID 4381top -H -p 4381通过这个命令发现有一个线程占用了100%的CPU,所以导致load很高,一般占用100%CPU大部分原因是进程阻塞了。下一步跟踪一下这个线程 线程PID...原创 2018-02-23 15:05:50 · 2911 阅读 · 0 评论 -
FULL GC隐患排查 优化
最近其它业务线反馈统一的国际化方案容易导致FULL GC,先简单说一下国际化方案:实现了一个filter,过滤所有的http请求,将请求头信息所带的语言环境存储到session里面,然后重新实现了response,对于文案统一采用编码的防范,response输出的时候将编码根据语言环境进行替换。 这里会有一个问题,如果是请求量比较大的应用,由于session的生命周期缘故,可能会导致...原创 2018-03-16 17:06:45 · 384 阅读 · 0 评论 -
服务器load高但是CPU使用率低
线上应用部署了两台服务器,项目发布之后跟踪线上服务器性能,发现一台load为3,一台load为1,四核服务器,有一台已经快到瓶颈了,因此紧急排查下原因1.TOP命令查看load和占用CPU比较大的进程,显示如下shift+c排序 占用最大的也就0.7% 1命名查看每个cpu的使用情况 基本上都处于空闲状态2.vmstat 2 5查看io情况procs -----------me...原创 2018-08-10 15:00:33 · 18026 阅读 · 2 评论