多数据源导致生产订单服务假死问题排查以及arthas的使用

lm_blog

已于 2022-10-19 16:49:14 修改

阅读量862

点赞数

分类专栏：数据库 java springboot 文章标签： java 开发语言

于 2022-10-19 16:43:29 首次发布

本文链接：https://blog.csdn.net/savanah_heat/article/details/127367649

版权

问题暴露

当出现假死问题后，首先出问题的是上游面向用户的服务，汇总问题点

1：上游管理oms卡死
2：上游小程序涉及订单接口很慢到直接卡死

通过生产环境linux命令排查发现cpu以及内存都非常低，观察生产日志刷新很慢，基本确定服务假死不再提供服务，通过重启服务发现，重启后会进行cpu线程数报障但服务可用，持续不到一分钟后暴跌服务假死

环境情况

k8s微服务集群，jdk1.8,springcloud相关组件，mysql数据库

问题排查

1、怀疑数据库问题

生产环境使用腾讯云数据库，通过监控查看发现当前数据库的cpu占用只有百分之零点几，内存方面也很低，通过

2、怀疑nacos转发问题

调用其他同级服务发现一切正常

3、怀疑网络问题

本地通过域名-nginx-服务接口发现正常

4、怀疑jvm内存问题

通过工具发现内存使用很低，在腾讯云服务器观察服务器指标也正常

5、怀疑服务内线程问题

通过引入arthas排查工具，运维同学远程进入当前服务doker内部继续arthas安装

查找当前服务 docker ps -a | grep order-service
通过当前服务进程 docker exec -it a581b287c4bd /bin/bash<

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lm_blog

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

糟了，线上服务出现OOM了

lisu061714112的专栏

10-10

2433

前一段时间，公司同事的一个线上服务OOM的问题，我觉得挺有意思的，在这里跟大家一起分享一下。我当时其实也参与了一部分问题的定位。如果这篇文章对您有所帮助，或者有所启发的话，帮忙扫描下发二维码关注一下，您的支持是我坚持写作最大的动力。关注公众号：【苏三说技术】，在公众号中回复：面试、代码神器、开发手册、时间管理有超赞的粉丝福利，另外回复：加群，可以跟很多BAT大厂的前辈交流和学习。

【企业架构设计实战】技术架构设计指南

最新发布

s13215的博客

07-26

428

在Java应用开发中，我们可能会遇到CPU占用过高导致服务器卡顿的现象。本文将介绍如何使用Arthas工具快速定位这类问题的一个案例。

记一次线上服务假死问题处理

nianzha0756的博客

04-28

1073

记一次线上服务假死问题处理记一次线上服务假死问题处理首先在服务器上下载arthas 官网 https://arthas.aliyun.com/doc/download.html 下载完成arthas-boot.jar 启动arthas java -jar arthas-boot.jar 选择要分析的服务 1.首先我通过 dashboard命令观察内存gc情况和内存使用情况结果老年代内存充足（可用4g 已用1g） gc时间也不长（8次老年代gc 3000ms）排除内存问题 2.thread

关于NACOS服务端假死的问题

无能力者只知抱怨

11-13

2900

最近NACOS社区有小伙伴服务端运行着运行着就假死的情况，端口在，进程也在，但是无法处理http请求了，通过jmap -histo之后手动触发了一次gc后恢复正常。经过反复排查，后确认是linux操作系统的内核问题。更多信息见:https://groups.google.com/g/mechanical-sympathy/c/QbmpZxp6C64 `It's fixed for me in RHEL 6.7, withkernel-2.6.32-504.16.2.el6 or later. Fo..

arthas 问题排查

zb313982521的博客

04-30

713

https://blog.csdn.net/u013735734/article/details/102930307

线上基础问题排查常用手册

u014197920的博客

02-02

1063

线上基础问题排查常用手册，JVM、Redis、JVM、MySQL、系统等问题的排查手段，及arthas的实际应用与介绍。分享如何快速的定位问题及解决问题。

性能优化常用工具及经验总结

不务正业的乘务员

05-18

1446

性能问题和 Bug 不同，后者的分析和解决思路更清晰，很多时候从应用日志（文中的应用指分布式服务下的单个节点）即可直接找到问题根源，而性能问题，其排查思路更为复杂一些。对应用进行性能优化，是一个系统性的工程，对工程师的技术广度和技术深度都有所要求。一个简单的应用，它不仅包含了应用代码本身，还和容器（虚拟机）、操作系统、存储、网络、文件系统等紧密相关，线上应用一旦出现了性能问题，需要我们从多方面去考虑。与此同时，除了一些低级的代码逻辑引发的性能问题外，很多性能问题隐藏的较深，排查起来会比较困难，需要我们对

使用Arthas排查问题

小问号的博客

04-20

4068

简介 Arthas 是Alibaba开源的Java诊断工具，深受开发者喜爱。当你遇到以下类似问题而束手无策时，Arthas可以帮助你解决：这个类从哪个 jar 包加载的？为什么会报各种类相关的 Exception？我改的代码为什么没有执行到？难道是我没 commit？分支搞错了？遇到问题无法在线上 debug，难道只能通过加日志再重新发布吗？线上遇到某个用户的数据处理有问题，但线上同样无法 debug，线下无法重现！是否有一个全局视角来查看系统的运行状况？有什么办法可以监控

记jnekins打包引起springcloud中服务假死问题

长流仙山拟画人

12-10

433

记jnekins打包引起springcloud中服务假死问题故事背景由于使用的jenkisn做发版工具，每次重启服务都打整个聚合工程，然后我对其进行优化，将其打包给单独拆出了一个job，打包完后将其产物上传，导致bug的出现。 bug发生前的jenkins配置部署or回滚脚本上传配置 bug发生前重启job配置说明打包或者回滚完后直接将所有的包给上传了。重启服务都是单个对应的job。 bug现象服务在nacos注册中心没有信息，进程还在，无任何报错日志信息。部分接口访问出现 j

【线上处理经验】系统问题：系统假死

Java程序员廖志伟

07-06

404

系统假死是指系统无响应或停滞的情况，对于线上处理经验系统来说，这种情况对于用户来说是非常严重的，因为用户在使用系统时需要快速响应，否则会影响用户的体验。重新启动系统：如果系统假死，最简单的方法就是重新启动系统，这样可以释放系统中的资源，解决系统假死的问题。修改系统配置：系统资源不足可能是系统假死的原因之一，因此可以尝试修改系统配置，增加系统资源，提高系统的处理能力。优化系统设计：系统设计的合理性可以影响系统的性能和响应速度，因此需要优化系统设计，减少系统假死的可能性。

记一次druid连接池配置问题引发服务假死的定位、分析、解决过程

sbin456的博客

04-21

5783

一、前言记录一次服务假死的整个排查过程，服务基础为spring boot + druid + 多数据源切换，在请求过多（尤其是长事务请求）时，服务出现请求无响应的状况，之前未完结的查询也没有任何返回结果。二、定位问题原因问题出现时，表现如下图，后台无任何报错，sql语句戛然而止，后续的查询被中断。这时如果再次发起某个请求，后台服务处于大部分时间不能...

Arthas实践 - 如何快速排查线上问题

jwf111的博客

01-02

5588

此处不再赘述Arthas的安装，直接上使用技巧官网地址:https://alibaba.github.io/arthas/ 1. 查看线程信息 thread 查看当前线程信息，查看线程的堆栈参数说明参数名称参数说明 id 线程id [n:] 指定最忙的前N个线程并打印堆栈 [b] 找出当前阻塞其他线程的线程 [i <val...

Java诊断工具-Arthas保姆级教程

qq_45443475的博客

10-13

1万+

Java诊断工具-Arthas保姆级教程

记一次 Druid 超时配置的问题，引发对 Druid 时间配置项的探究

weixin_45727359的博客

08-01

5346

开心一刻一天在路边看到一个街头采访记者：请问，假如你儿子娶媳妇，给多少彩礼合适呢大爷：一百万吧，再给一套房，一辆车大爷沉思一下，继续说到：如果有能力的话再给老丈人配一辆车，毕竟他把女儿养这么大也不容易记者：那你儿子多大了？大爷：我没有儿子，有两个女儿问题背景最近生产环境出现了一个问题，错误日志类似如下：Failed to obtain JDBC Connection; n...

nacos常见问题处理

NIEEPN的博客

02-15

568

nacos常见问题排查