线上问题解决思路

线上问题排查

1. jps -l 查看 java进程端口号

2. top 查看java进程cpu使用率,监控cpu使用率是否一致在升高

3. top -H -p  [pid] 查看java进程中线程信息,检查那些线程cpu使用率过高,记录线程pid

4. jstatk [pid]  >xxx.log 查看堆栈线程信息,将堆栈信息存入日志

5.线程pid为十进制,堆栈信息中的线程id为十六进制,所以这块需要将pid转化为十六进制

6.more +/[十六进制pid]  堆栈信息.log 查询线程id第一次出现的位置,查看线程状态,锁定代码

 

频繁fullgc时,可查看jvm当前存活对象来排查jvm中有哪些大量的对象存活 jmap -histo:live [pid]

 

由于机器信息包含公司信息,所以没有贴图,后期补上,更直观;

https://blog.csdn.net/T2080305/article/details/80855831 这篇文章有详细的截图,内容大致一样

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
在处理线上事故时,以下是一些常见的思路和步骤,供您参考: 1. 快速响应:立即对事故做出反应,召集相关团队成员,确保有人负责事故处理,并尽快组织紧急会议或沟通渠道。 2. 初步诊断:收集关于事故的信息,包括报错日志、监控指标、用户反馈等。通过分析这些数据,尝试确定事故的范围、影响和原因。 3. 确定优先级:根据事故的严重性和影响程度,确定处理事故的优先级。对于影响最大的问题,应该优先处理。 4. 隔离问题:如果可能,将问题隔离以防止进一步的影响。例如,关闭有问题的功能模块、切换到备用服务器等。 5. 回滚或紧急修复:如果存在已知的可行解决方案,可以考虑回滚到之前稳定的版本或进行紧急修复。但在进行这些操作之前,一定要进行充分的测试和验证。 6. 通知相关方:及时向相关方(如产品经理、运维人员、客户服务等)提供准确的沟通和更新,并提供预计解决时间。 7. 彻底分析和修复:一旦事故得到初步解决,需要进行更深入的分析、修复和预防措施。这可能涉及代码审查、性能优化、改进监控和日志等。 8. 事故总结和报告:在处理事故后,及时总结经验教训,并准备详细的事故报告。这有助于避免类似问题的再次发生,并提供给团队和上级管理层参考。 9. 恢复正常运营:在解决事故后,确保系统恢复到正常运行状态,并进行必要的测试和验证,以确保问题已经完全解决。 请注意,每个事故都是独特的,处理方法可能会有所不同。在处理事故时,团队的紧密合作、快速反应和有效沟通非常重要。同时,建议建立健全的监控系统和预警机制,以便及早发现并防止潜在的事故发生。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值