线上故障快速定位及恢复

最新推荐文章于 2023-03-12 22:20:59 发布

平凡人笔记

最新推荐文章于 2023-03-12 22:20:59 发布

阅读量293

点赞数

分类专栏：平凡人笔记

本文链接：https://blog.csdn.net/qq_16485855/article/details/116097013

版权

平凡人笔记专栏收录该内容

149 篇文章 6 订阅

订阅专栏

本文探讨了Java线程的堆栈信息，包括Linux下的jstack和kill命令的使用，以及线程状态如WAITING、TIMED_WAITING和BLOCKED的含义。重点讲述了线程死锁的原因、识别和分析方法，包括CPU过高时的排查步骤。此外，还介绍了如何通过监控工具如top和jstack定位性能瓶颈，并提供了线上故障处理的原则和方法。

摘要由CSDN通过智能技术生成

Java线程堆栈

Linux jstack命令

jstack 7756(Java进程号) > java.stack

Linux kill命令

kill -3 7756(Java进程号)

向JVM发送QUIT信号

Java线程

JVM创建线程

用户线程

main函数代表主线程

线程堆栈的第一行

1、java线程转换LINUX 内核库pthread即本地线程
2、tid 语言层面的id比如Java 线程编号
3、nid（Native Thread）运行在操作系统基础上的本地id

线程调用含义

堆栈信息其中一行的调用关系

pstatck 7756(Java进程号)

nid(16进制) == LWP(10进制)

16进制的nid

10进制的LWP（轻量级进程）

锁是否释放

wait() 会释放监视锁

sleep会占用锁

当一个线程占有一个锁时

堆栈会打印 -locked <Oxe7402c48>

当该线程等待别的线程释放该锁

堆栈会打印 -waiting to lock <Oxe7402c48>

如果代码中有wait调用

首先是locked 然后又会打印 waiting on <Oxe7402c48>
这种会导致死锁即死循环 占用了锁等待其他锁

线程死锁

0时刻 线程0获取锁0 线程1获取锁1 
2时刻 线程0获取锁1 线程1获取锁0 
两个线程各得到锁 都等待对方的锁

Java堆栈直接给出死锁的结果

死锁报错

死锁详情

死锁情况分析导致CPU过高分析

方法1

步骤

为什么要去掉wait和sleep的线程 因为其不占用cpu资源

原因

方法2 TOP&堆栈方法（一次命中）

JNI是Java Native Interface

5578是java的进程号
打印这个进程中所有线程
cpu消耗倒叙排列 shit+h
jstack把线程堆栈打印出来 里面有很多线程 其中有一个就等于cpu消耗最多的那个pid
就可以直接定位到这行代码有问题

不消耗CPU的线程状态

JVM的RUNNABLE状态

网络IO不消耗CPU 是同步阻塞的过程

TIMED_WAITING(on object monitor)

obj.wait(time)

TIMED_WAITING(sleeping)

Thread.sleep(time)

TIMED_WAITING(parking)

被挂起

WAITING(on object monitor)

obj.wait()
通过notify()唤醒

BLOCKED (on object monitor)

等待监视锁

WAITING(parking)

被挂起

Java线程堆栈

一次线程堆栈信息

多次线程堆栈

资源不足导致性能下降原因

大量线程停在同样的调用上下文中

原因

未及时释放连接的情况

多个锁导致的锁链分析

很多线程在等待不同的锁 有的锁竞争可能由于另外一个锁对象竞争导致 需要找到根源

案例分析

WebAPI性能瓶颈

线上表现

1、连接阻塞比较多RECQ(接收的队列)
2、超时日志疯狂打印
3、通过重启webapi进程临时缓解压力

解决步骤

线程A

线程B

线上故障处理方式

保留现场

比如通过jstack保存堆栈快照信息

恢复服务

第一时间恢复服务 比如restart、reboot

排查解决
验证

常规操作

重启
回滚
降级
摘机

现象收集&故障定位

潜在bug被激发的情况重启有效

故障排除&服务恢复

确定服务进程排查问题

CPU

top 
shift+p 按pid 进程编号升序
shift+m 按占用内存大小降序

内存

free -g

内存

vmstat -n

tcp连接数量

netstat -aonp|grep tcp |wc -l

端口映射

netstat -natp|sort -m

磁盘情况

iostat -d 1

文件占用情况

ls -l /proc/*/fd

目标服务内观察

问题协查方法论

异常处理原则

错误永远无法避免 且发生的角度永远无法预期
在故障发生时尽可能维持系统核心功能的可用性

平凡人笔记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录