起因
线上由于做活动,在某一时间段的瞬时流量暴增,导致所有接口服务响应时间增加,基本都到20~30秒,此时用户侧的反应都是看不到数据继续刷新,导致请求继续大量进入,服务器cpu飙升。
排查
1.首先看了下服务中java线程有没有死锁,使用jstack pid,发现线程都处于正常状态
**常用状态一览**
死锁, Deadlock(重点关注)
执行中,Runnable
等待资源, Waiting on condition(重点关注)
等待获取监视器, Waiting on monitor entry(重点关注)
暂停,Suspended
对象等待中,Object.wait() 或 TIMED_WAITING
阻塞, Blocked(重点关注)
停止,Parked
2.top命令查看服务器进程状态,查看占用cpu高的进程,发现mysql服务cpu占用高居不下,100到300左右
3.查看服务MySQL连接池大小,若是很小调大,但是这需要对服务的重启,谨慎操作
4.由于直接定位到mysql服务的问题,所以接下来就是mysql的排查优化步骤了
mysql cpu飙升的排查以及优化
- 进去mysql客户端.使用show processlist
- 查询所有正在执行的sql,找出执行最慢的语句,然后通过explain查看,查看到extra信息中该语句的连个连接查询都有 【mysql Using join buffer (Block Nested Loop)】。
- 该信息表示是因为关联表没有在join列上建索引导致嵌套循环,所以优化到关联表上新增该字段的索引。