故障排查
文章平均质量分 57
fredlong1979
这个作者很懒,什么都没留下…
展开
-
CPU高的排查方法
最近上线的getofflinemessage的应用,上线后,运行该应用的进程时不时使用了60%-70%的CPU,远远超过这个进程预期计算量。用jstack pid,看这一瞬间所有的线程都在干嘛,多看几次,如果多次出现某个线程都在干一件事,那么说明这块比较占CPU,去检查这块的代码是否有性能问题。用这个方法果然找到getofflinemessage的应用在使用String.subSt...2012-11-30 14:12:54 · 106 阅读 · 0 评论 -
linux怎么查看连接的创建时间
zookeeper客户端失去连接的时候,我们的系统会报警。这个时候我们需要去生产环境看看客户端的连接情况,需要查看连接的创建时间。使用以下方法:1.查看连接所在的进程号,netstat -npt | grep port,可以得到进程号tcp 0 0 ::ffff:192.168.251.43:51520 ::ffff:192.168.110.231:89...2012-11-30 14:40:46 · 997 阅读 · 1 评论 -
关于抓java的dump中live参数
我们经常需要查看内存中的一些变量的值,来定位生产环境的问题。一般会使用jmap来抓dump,在抓dump的时候,我们会把堆全部扒下来:jmap -dump:format=b,file=path pid然后会生成一个几百M的包,让运维人员从生产环境拖下来再传给你,然后你用jvisualvm打开,等你打开这个dump的时候,看到你想看的内存的时候,基本上半天时间已经过去了。其实...原创 2012-12-10 20:01:43 · 714 阅读 · 0 评论 -
用jvisualvm查找dump的例子
select x from com.***.legacy.route.configuration.RoutePolicy xwhere x.service.toString() == "PRS"关于OQL的具体语法,接下来详细记录。原创 2012-12-10 20:03:54 · 435 阅读 · 0 评论 -
mysql突然出现大量慢sql,随后redis访问超时
在亚马逊云买了多台的虚拟主机,一年多没有由于系统的原因出过故障。今天碰见了。早上接到报警,从业务故障上来看,应该是数据库没有响应了。SSH连数据库服务器,发现连不上。重启数据库服务器,一直起不来。最后用上周的数据库服务器的系统备份snapshot(我们的数据盘和系统盘是分开的)新建一个Volume,替换掉故障系统盘,重新启动服务器,才顺利进入系统。在用新的Volume挂靠服务器的...原创 2015-07-01 12:19:19 · 449 阅读 · 0 评论 -
Linux的DNS配置(resolv.conf)导致Unknown Host问题
今天接到用户投诉说不定期会收到Unknown Host的错误,怀疑是应用服务器的DNS配置有问题,上应用服务器看了下/etc/resolv.conf,发现配置的第一行是: options attempts:1 timeout:1 nameserver 10.10.10.10 查询相关配置说明发现DNS这块的逻辑是:内网的DNS服务器的地址是10.10.10.10,应用...2016-05-31 14:58:55 · 2697 阅读 · 0 评论